快速抓取网站数据的自动化工作流教程

你是否遇到过需要快速抓取竞品网站的产品价格和评价,却只能一页一页手动查看,既费时费力又容易出错?或者,你想快速获取某个新闻网站的最新报道,却发现内容实时变更,普通工具根本抓不到?别担心!今天这个教程将教你如何快速抓取网站数据,并建立一套自动化工作流。从此,你只需在家喝咖啡、收邮件,AI就会把整理好的内容发送给你。

这套工作流不仅能自动识别并抓取JavaScript动态内容,还能绕过各种反扒机制,轻松解决任何网站的数据采集难题。最重要的是,即便是零基础、不懂AI的小白,只要按照这套教程,也能在几分钟内完成全站爬取,输出结构化、AI友好的数据格式。无论是竞品分析、内容聚合,还是为大模型训练做准备,这套工作流都能帮你实现目标。

我们致力于用AI自动化帮助大家在AI时代打造高效产出。如果你对AI技术感兴趣,欢迎点赞、订阅、收藏本教程!接下来,我们开始吧!

本期视频内容概览

看完本教程,你将学会以下内容:

  1. Firecrawl的5种数据抓取方法
  2. 如何创建自动化工作流,实现一键获取网页数据;
  3. 三个实际案例应用:快速抓取竞品数据、设置自动化定时新闻推送、批量生成克隆人新闻口播视频。

如果你想快速抓取竞品数据、设置新闻推送,或生成AI口播视频,请务必看完本教程!

Firecrawl工作原理

在介绍Firecrawl的5种抓取方法前,我们先了解其工作原理。假设一个网站(例如home.com)是一栋房子,网站的每个路径(比如/groom)就像房子的房间(卧室、客厅)。当你需要某个东西时,可以告诉Firecrawl:“去把花瓶拿过来。” Firecrawl会根据指令执行,可能是拿客厅桌上的花瓶(单页抓取),也可能是拿家里所有花瓶(全站抓取)。这对应不同的爬虫方案:Single URL、Crawl、Map、Search、Extract。

1. Single URL(单链接提取)

适用于已知具体网址,只想抓取单个页面全部内容(文字、图片、链接、结构化数据等)。例如,抓取某篇文章、商品详情页或活动页面。

2. Crawl(爬取)

可获取网页中所有链接及对应页面的详细信息,支持设定抓取深度和页面数量限制。适用于抓取多个相关页面,例如某博客分类下的所有文章或电商分类下的商品详情页。

3. Map(映射)

从提供的URL开始,尽可能发现所有相关链接并罗列出来。适用于已知一组网页地址,想提取内容,例如新闻汇总页导出批量文章链接或多个商品详情页。

4. Search(搜索)

无需提供目标网站链接,只需输入关键词,系统通过搜索引擎自动查找相关网页并抓取内容。适用于不知道具体链接但知道关键词的情况,例如获取AI新闻或特斯拉财报的最新页面,类似Perplexity的搜索方式。

5. Extract(提取)

Firecrawl最强大的功能,适合抓取设置了验证码或复杂交互的页面。它能从单页、多页甚至整个网站提取结构化数据,依赖AI理解页面,提取所需信息。

示例:以Extract功能构建自动化工作流

我们以Extract功能为例,展示如何在n8n中实现从数据抓取到文章生成、口播视频制作的自动化流程。

步骤1:使用Firecrawl的Extract功能

  1. 登录Firecrawl,点击导航栏的“Extract”;
  2. 在“Trying in Playground”输入框中,用自然语言描述需求(例如抓取苹果官网的最新产品信息,包括产品名称、价格、URL);
  3. Firecrawl会生成结构化数据模板,自动填充URL、数据结构和Prompt;
  4. 点击“运行”,Firecrawl将访问首页并爬取整个网站。例如,抓取苹果官网后,获取83条产品信息,输出包含产品名称、价格、URL的JSON代码。

步骤2:在n8n中设置自动化流程

如果你有20、30、40个URL需要批量处理,可通过n8n调用Firecrawl API实现自动化。

  1. 创建HTTP请求节点

    • 打开Firecrawl文档,复制Extract接口的cURL命令;
    • 在n8n中选择“导入URL”,粘贴cURL命令,自动填充请求方式(POST)和接口地址;
    • 设置授权信息:
      • 在Firecrawl网站复制API Key;
      • 在n8n中创建通用凭证(类型为Header,名称为“Authorization”,值格式为“Bearer ”);
      • 保存凭证,供后续使用。
  2. 配置请求体

    • 打开“Send Body”,类型选JSON;
    • 清空默认URL数组,仅保留双引号,填入目标网站(例如苹果官网URL,需加“*”通配符表示抓取全站);
    • 复制Firecrawl Playground的Prompt和JSON Schema,粘贴到n8n;
    • 如果JSON格式错误,可用ChatGPT修复后粘贴回n8n。
  3. 测试请求

    • 点击测试,返回包含“true”和提取ID的消息表示请求成功;
    • 添加轮询逻辑:
      • 复制Firecrawl文档中异步提取状态检查的cURL命令;
      • 创建新HTTP请求节点(GET请求),路径为“/extractor/”;
      • 从前一节点拉取ID字段值;
      • 添加IF节点检查状态,配合Wait节点(例如等待5秒)循环直到数据处理完成。
  4. 结果

    • 成功后返回105条数据(比Playground更多),包含产品名称、价格、URL等。

注意:URL后必须加“*”通配符以抓取全站,否则只抓单页。

案例1:每日新闻推送

工作流设置

  1. 定时触发器
    • 设置触发间隔为每天(例如早上7点)。
  2. Firecrawl提取新闻
    • 配置POST请求,替换URL、Prompt和Schema为新闻网站相关内容;
    • 输出多条新闻条目。
  3. Code节点整合内容
    • 编写代码遍历新闻数据,加上编号,拼接成一段文字(可参考提供的代码模板或用ChatGPT生成)。
  4. 发送邮件
    • 配置邮箱凭证(支持QQ邮箱、谷歌邮箱等,具体配置见文档);
    • 设置发送邮箱和接收邮箱(可相同),邮件主题可包含当天日期(参考代码模板);
    • 将Code节点整合的内容拖入邮件正文;
    • 测试后,邮件会包含新闻标题、正文和链接。

效果

每天无需打开网页,只需查看邮件即可获取热点新闻,相当于拥有一个私人秘书。

案例2:克隆人口播视频

工作流设置

  1. 抓取新闻内容
    • 使用前述Firecrawl提取流程获取新闻数据。
  2. 内容整合与润色
    • 用Code节点合并新闻,或通过大模型润色文案(可使用提供的模板)。
  3. 生成视频
    • 将内容接入黑诊(HeyGen),生成克隆人、合成声音并对口型,自动输出新闻口播视频;
    • 黑诊配置方法见上一期视频。

效果

无需拍摄、文案或剪辑,AI自动生成克隆人读新闻的视频,相当于拥有一个“替身”。

总结与资源

本教程分享的所有信息、代码、Prompt和模板均在评论区提供。你只需打开n8n,点击“更多”→“导入URL”即可使用三个模板。如果觉得本教程有帮助且对AI自动化感兴趣,请点赞、订阅支持!感谢观看,下期视频见!

No comments

公司简介

 

自1996年以来,公司一直专注于域名注册、虚拟主机、服务器托管、网站建设、电子商务等互联网服务,不断践行"提供企业级解决方案,奉献个性化服务支持"的理念。作为戴尔"授权解决方案提供商",同时提供与公司服务相关联的硬件产品解决方案。
备案号: 豫ICP备05004936号-1

联系方式

地址:河南省郑州市经五路2号

电话:0371-63520088

QQ:76257322

网站:800188.com

电邮:该邮件地址已受到反垃圾邮件插件保护。要显示它需要在浏览器中启用 JavaScript。