快速抓取网站数据的自动化工作流教程

技术文章 7月 15, 2025

你是否遇到过需要快速抓取竞品网站的产品价格和评价，却只能一页一页手动查看，既费时费力又容易出错？或者，你想快速获取某个新闻网站的最新报道，却发现内容实时变更，普通工具根本抓不到？别担心！今天这个教程将教你如何快速抓取网站数据，并建立一套自动化工作流。从此，你只需在家喝咖啡、收邮件，AI就会把整理好的内容发送给你。

这套工作流不仅能自动识别并抓取JavaScript动态内容，还能绕过各种反扒机制，轻松解决任何网站的数据采集难题。最重要的是，即便是零基础、不懂AI的小白，只要按照这套教程，也能在几分钟内完成全站爬取，输出结构化、AI友好的数据格式。无论是竞品分析、内容聚合，还是为大模型训练做准备，这套工作流都能帮你实现目标。

我们致力于用AI自动化帮助大家在AI时代打造高效产出。如果你对AI技术感兴趣，欢迎点赞、订阅、收藏本教程！接下来，我们开始吧！

本期视频内容概览

看完本教程，你将学会以下内容：

Firecrawl的5种数据抓取方法；
如何创建自动化工作流，实现一键获取网页数据；
三个实际案例应用：快速抓取竞品数据、设置自动化定时新闻推送、批量生成克隆人新闻口播视频。

如果你想快速抓取竞品数据、设置新闻推送，或生成AI口播视频，请务必看完本教程！

Firecrawl工作原理

在介绍Firecrawl的5种抓取方法前，我们先了解其工作原理。假设一个网站（例如home.com）是一栋房子，网站的每个路径（比如/groom）就像房子的房间（卧室、客厅）。当你需要某个东西时，可以告诉Firecrawl：“去把花瓶拿过来。” Firecrawl会根据指令执行，可能是拿客厅桌上的花瓶（单页抓取），也可能是拿家里所有花瓶（全站抓取）。这对应不同的爬虫方案：Single URL、Crawl、Map、Search、Extract。

1. Single URL（单链接提取）

适用于已知具体网址，只想抓取单个页面全部内容（文字、图片、链接、结构化数据等）。例如，抓取某篇文章、商品详情页或活动页面。

2. Crawl（爬取）

可获取网页中所有链接及对应页面的详细信息，支持设定抓取深度和页面数量限制。适用于抓取多个相关页面，例如某博客分类下的所有文章或电商分类下的商品详情页。

3. Map（映射）

从提供的URL开始，尽可能发现所有相关链接并罗列出来。适用于已知一组网页地址，想提取内容，例如新闻汇总页导出批量文章链接或多个商品详情页。

4. Search（搜索）

无需提供目标网站链接，只需输入关键词，系统通过搜索引擎自动查找相关网页并抓取内容。适用于不知道具体链接但知道关键词的情况，例如获取AI新闻或特斯拉财报的最新页面，类似Perplexity的搜索方式。

5. Extract（提取）

Firecrawl最强大的功能，适合抓取设置了验证码或复杂交互的页面。它能从单页、多页甚至整个网站提取结构化数据，依赖AI理解页面，提取所需信息。

示例：以Extract功能构建自动化工作流

我们以Extract功能为例，展示如何在n8n中实现从数据抓取到文章生成、口播视频制作的自动化流程。

步骤1：使用Firecrawl的Extract功能

登录Firecrawl，点击导航栏的“Extract”；
在“Trying in Playground”输入框中，用自然语言描述需求（例如抓取苹果官网的最新产品信息，包括产品名称、价格、URL）；
Firecrawl会生成结构化数据模板，自动填充URL、数据结构和Prompt；
点击“运行”，Firecrawl将访问首页并爬取整个网站。例如，抓取苹果官网后，获取83条产品信息，输出包含产品名称、价格、URL的JSON代码。

步骤2：在n8n中设置自动化流程

如果你有20、30、40个URL需要批量处理，可通过n8n调用Firecrawl API实现自动化。

创建HTTP请求节点：
- 打开Firecrawl文档，复制Extract接口的cURL命令；
- 在n8n中选择“导入URL”，粘贴cURL命令，自动填充请求方式（POST）和接口地址；
- 设置授权信息：
  - 在Firecrawl网站复制API Key；
  - 在n8n中创建通用凭证（类型为Header，名称为“Authorization”，值格式为“Bearer ”）；
  - 保存凭证，供后续使用。
配置请求体：
- 打开“Send Body”，类型选JSON；
- 清空默认URL数组，仅保留双引号，填入目标网站（例如苹果官网URL，需加“*”通配符表示抓取全站）；
- 复制Firecrawl Playground的Prompt和JSON Schema，粘贴到n8n；
- 如果JSON格式错误，可用ChatGPT修复后粘贴回n8n。
测试请求：
- 点击测试，返回包含“true”和提取ID的消息表示请求成功；
- 添加轮询逻辑：
  - 复制Firecrawl文档中异步提取状态检查的cURL命令；
  - 创建新HTTP请求节点（GET请求），路径为“/extractor/”；
  - 从前一节点拉取ID字段值；
  - 添加IF节点检查状态，配合Wait节点（例如等待5秒）循环直到数据处理完成。
结果：
- 成功后返回105条数据（比Playground更多），包含产品名称、价格、URL等。

注意：URL后必须加“*”通配符以抓取全站，否则只抓单页。

案例1：每日新闻推送

工作流设置

定时触发器：
- 设置触发间隔为每天（例如早上7点）。
Firecrawl提取新闻：
- 配置POST请求，替换URL、Prompt和Schema为新闻网站相关内容；
- 输出多条新闻条目。
Code节点整合内容：
- 编写代码遍历新闻数据，加上编号，拼接成一段文字（可参考提供的代码模板或用ChatGPT生成）。
发送邮件：
- 配置邮箱凭证（支持QQ邮箱、谷歌邮箱等，具体配置见文档）；
- 设置发送邮箱和接收邮箱（可相同），邮件主题可包含当天日期（参考代码模板）；
- 将Code节点整合的内容拖入邮件正文；
- 测试后，邮件会包含新闻标题、正文和链接。

效果

每天无需打开网页，只需查看邮件即可获取热点新闻，相当于拥有一个私人秘书。

案例2：克隆人口播视频

工作流设置

抓取新闻内容：
- 使用前述Firecrawl提取流程获取新闻数据。
内容整合与润色：
- 用Code节点合并新闻，或通过大模型润色文案（可使用提供的模板）。
生成视频：
- 将内容接入黑诊（HeyGen），生成克隆人、合成声音并对口型，自动输出新闻口播视频；
- 黑诊配置方法见上一期视频。

效果

无需拍摄、文案或剪辑，AI自动生成克隆人读新闻的视频，相当于拥有一个“替身”。

总结与资源

本教程分享的所有信息、代码、Prompt和模板均在评论区提供。你只需打开n8n，点击“更多”→“导入URL”即可使用三个模板。如果觉得本教程有帮助且对AI自动化感兴趣，请点赞、订阅支持！感谢观看，下期视频见！

按类别购物

快速抓取网站数据的自动化工作流教程

本期视频内容概览

Firecrawl工作原理

1. Single URL（单链接提取）

2. Crawl（爬取）

3. Map（映射）

4. Search（搜索）

5. Extract（提取）

示例：以Extract功能构建自动化工作流

步骤1：使用Firecrawl的Extract功能

步骤2：在n8n中设置自动化流程

案例1：每日新闻推送

工作流设置

效果

案例2：克隆人口播视频

工作流设置

效果

总结与资源

No comments

10分钟掌握 Google AI Studio：从灵感到作品的实战指南

用10分钟带你全面掌握 Google AI Studio：从入门到实战

MySQL 和 PostgreSQL：发音大不同

Information

公司简介

联系方式

友情链接

特色文章

关注我们