你是否遇到过需要快速抓取竞品网站的产品价格和评价,却只能一页一页手动查看,既费时费力又容易出错?或者,你想快速获取某个新闻网站的最新报道,却发现内容实时变更,普通工具根本抓不到?别担心!今天这个教程将教你如何快速抓取网站数据,并建立一套自动化工作流。从此,你只需在家喝咖啡、收邮件,AI就会把整理好的内容发送给你。
这套工作流不仅能自动识别并抓取JavaScript动态内容,还能绕过各种反扒机制,轻松解决任何网站的数据采集难题。最重要的是,即便是零基础、不懂AI的小白,只要按照这套教程,也能在几分钟内完成全站爬取,输出结构化、AI友好的数据格式。无论是竞品分析、内容聚合,还是为大模型训练做准备,这套工作流都能帮你实现目标。
我们致力于用AI自动化帮助大家在AI时代打造高效产出。如果你对AI技术感兴趣,欢迎点赞、订阅、收藏本教程!接下来,我们开始吧!
本期视频内容概览
看完本教程,你将学会以下内容:
- Firecrawl的5种数据抓取方法;
- 如何创建自动化工作流,实现一键获取网页数据;
- 三个实际案例应用:快速抓取竞品数据、设置自动化定时新闻推送、批量生成克隆人新闻口播视频。
如果你想快速抓取竞品数据、设置新闻推送,或生成AI口播视频,请务必看完本教程!
Firecrawl工作原理
在介绍Firecrawl的5种抓取方法前,我们先了解其工作原理。假设一个网站(例如home.com)是一栋房子,网站的每个路径(比如/groom)就像房子的房间(卧室、客厅)。当你需要某个东西时,可以告诉Firecrawl:“去把花瓶拿过来。” Firecrawl会根据指令执行,可能是拿客厅桌上的花瓶(单页抓取),也可能是拿家里所有花瓶(全站抓取)。这对应不同的爬虫方案:Single URL、Crawl、Map、Search、Extract。
1. Single URL(单链接提取)
适用于已知具体网址,只想抓取单个页面全部内容(文字、图片、链接、结构化数据等)。例如,抓取某篇文章、商品详情页或活动页面。
2. Crawl(爬取)
可获取网页中所有链接及对应页面的详细信息,支持设定抓取深度和页面数量限制。适用于抓取多个相关页面,例如某博客分类下的所有文章或电商分类下的商品详情页。
3. Map(映射)
从提供的URL开始,尽可能发现所有相关链接并罗列出来。适用于已知一组网页地址,想提取内容,例如新闻汇总页导出批量文章链接或多个商品详情页。
4. Search(搜索)
无需提供目标网站链接,只需输入关键词,系统通过搜索引擎自动查找相关网页并抓取内容。适用于不知道具体链接但知道关键词的情况,例如获取AI新闻或特斯拉财报的最新页面,类似Perplexity的搜索方式。
5. Extract(提取)
Firecrawl最强大的功能,适合抓取设置了验证码或复杂交互的页面。它能从单页、多页甚至整个网站提取结构化数据,依赖AI理解页面,提取所需信息。
示例:以Extract功能构建自动化工作流
我们以Extract功能为例,展示如何在n8n中实现从数据抓取到文章生成、口播视频制作的自动化流程。
步骤1:使用Firecrawl的Extract功能
- 登录Firecrawl,点击导航栏的“Extract”;
- 在“Trying in Playground”输入框中,用自然语言描述需求(例如抓取苹果官网的最新产品信息,包括产品名称、价格、URL);
- Firecrawl会生成结构化数据模板,自动填充URL、数据结构和Prompt;
- 点击“运行”,Firecrawl将访问首页并爬取整个网站。例如,抓取苹果官网后,获取83条产品信息,输出包含产品名称、价格、URL的JSON代码。
步骤2:在n8n中设置自动化流程
如果你有20、30、40个URL需要批量处理,可通过n8n调用Firecrawl API实现自动化。
-
创建HTTP请求节点:
- 打开Firecrawl文档,复制Extract接口的cURL命令;
- 在n8n中选择“导入URL”,粘贴cURL命令,自动填充请求方式(POST)和接口地址;
- 设置授权信息:
- 在Firecrawl网站复制API Key;
- 在n8n中创建通用凭证(类型为Header,名称为“Authorization”,值格式为“Bearer ”);
- 保存凭证,供后续使用。
-
配置请求体:
- 打开“Send Body”,类型选JSON;
- 清空默认URL数组,仅保留双引号,填入目标网站(例如苹果官网URL,需加“*”通配符表示抓取全站);
- 复制Firecrawl Playground的Prompt和JSON Schema,粘贴到n8n;
- 如果JSON格式错误,可用ChatGPT修复后粘贴回n8n。
-
测试请求:
- 点击测试,返回包含“true”和提取ID的消息表示请求成功;
- 添加轮询逻辑:
- 复制Firecrawl文档中异步提取状态检查的cURL命令;
- 创建新HTTP请求节点(GET请求),路径为“/extractor/”;
- 从前一节点拉取ID字段值;
- 添加IF节点检查状态,配合Wait节点(例如等待5秒)循环直到数据处理完成。
-
结果:
- 成功后返回105条数据(比Playground更多),包含产品名称、价格、URL等。
注意:URL后必须加“*”通配符以抓取全站,否则只抓单页。
案例1:每日新闻推送
工作流设置
- 定时触发器:
- 设置触发间隔为每天(例如早上7点)。
- Firecrawl提取新闻:
- 配置POST请求,替换URL、Prompt和Schema为新闻网站相关内容;
- 输出多条新闻条目。
- Code节点整合内容:
- 编写代码遍历新闻数据,加上编号,拼接成一段文字(可参考提供的代码模板或用ChatGPT生成)。
- 发送邮件:
- 配置邮箱凭证(支持QQ邮箱、谷歌邮箱等,具体配置见文档);
- 设置发送邮箱和接收邮箱(可相同),邮件主题可包含当天日期(参考代码模板);
- 将Code节点整合的内容拖入邮件正文;
- 测试后,邮件会包含新闻标题、正文和链接。
效果
每天无需打开网页,只需查看邮件即可获取热点新闻,相当于拥有一个私人秘书。
案例2:克隆人口播视频
工作流设置
- 抓取新闻内容:
- 使用前述Firecrawl提取流程获取新闻数据。
- 内容整合与润色:
- 用Code节点合并新闻,或通过大模型润色文案(可使用提供的模板)。
- 生成视频:
- 将内容接入黑诊(HeyGen),生成克隆人、合成声音并对口型,自动输出新闻口播视频;
- 黑诊配置方法见上一期视频。
效果
无需拍摄、文案或剪辑,AI自动生成克隆人读新闻的视频,相当于拥有一个“替身”。
总结与资源
本教程分享的所有信息、代码、Prompt和模板均在评论区提供。你只需打开n8n,点击“更多”→“导入URL”即可使用三个模板。如果觉得本教程有帮助且对AI自动化感兴趣,请点赞、订阅支持!感谢观看,下期视频见!