手把手教你搭建爬虫工作流服务网站

豆抖大人2025-11-25 20:33:03

N8N是全球热度最高的AI工作流平台，相比AI编程，工作流的优势是绝对的可控。毕竟AI生成的代码你看不懂，但是你亲手搭建的工作流一定能百分百知其所以然。这期我将手把手带你做一个爬虫工作流服务网站，居然一键爬到了网站信息，居然将网站信息自动填写到了表格里。完整看完这些视频，你可以学会上述爬虫工作流的搭建，免费使用N8N免费调用各大模型的API。学不会也没关系，因为我最后会将工作流公开出来，你可以直接下载，稍微修改修改就变成了你的项目。好的，马上开始。一本地部署N8N本地部署的含义是将你的电脑作为服务器，一切服务都运行在你自己的电脑上。我们搜索一下N8N然后进入第一个网站，是一个钓鱼网站，找到官方的N8N地址，右上角有按键可以跳转到GitHub，往下拉可以找到quick start。这里有提示requires node点JS也就是说在安装N8N之前，需要先安装node点JS访问网址，然后下载安装就可以。安装完成后，最好先验证下windows加R唤醒运行框，输入CMD唤醒终端，在终端里输入node杠1返回对应的版本，继续输入NPX杠1也返回对应的版本。如果这两步都返回了版本，那就说明node点GS已经安装完成了。给你点个赞，复制这行神秘代码NPX空格N8N它的含义是用NPX这个工具来启动N8N如果你是第一次使用，则需要等待一段时间完成下载。当看到这个version的时候，说明已经下载完成了。然后下方会有一行地址，local host 5678。访问这个地址看到N8N的登录页面，说明你的本地部署已经成功。给你点个赞。这里顺带提一下，后续你的电脑每次重启都需要重新运行NPX空格N8N命令，你才能够在你的浏览器里面使用N8N2N8N汉化，输入你的账号密码，一直往下就可以看到N8N的工作台。看到满屏的英文是不是想直接放弃？要放弃了吗？到此为止了吗？为什么以前没有好好学英语？为什么看美剧的时候要看中文字幕？哎，你可以安装和我一样的插件，一键翻译为中文。虽然社区里有N8N的汉化包，但安装过程非常繁琐，使用我这个插件则更加灵活，重点是免费。你可以在浏览器里搜索沉浸式翻译，进入第一个，这回不是钓鱼网站了，点击右上角的艾特，将它添加到你的浏览器就可以。我们回到N8N可以在插件里开启，总是翻译该网页。这样不管我们怎么切换N8N的子页面，都会默认帮我们进行翻译。3、预览工作流，这是我们已经搭建完成的工作流，看着很简单是吧，但作为入门教程，够你学了，思路是最重要的。这里我准备了两个素材，一个是阿里巴巴的招聘网站，我们要从这个网站里爬到所有的岗位信息，为什么要爬这个网站？因为不敢爬有版权的小说和漫画，当然我相信你可以试一试，给你点个赞。第二是飞书的子页面，我们已经提前建好的表格，但现在内容还是空的。我们回到工作流，点击执行20秒就能跑完。节点一是触发器代表什么时候运行工作流，节点二是一次爬虫工具的调用，可以看到已经拿到了网站里的所有内容。节点三是AI大模型相比上一步过滤掉了无效的内容，并输出了清晰的结构。节点4是拆分，将每个岗位都拆成了独立的数据，共拆成了十条。节点5是飞书多维表，自动将十条数据写入表格。我们来到飞书表格，发现多了十条数据。这便是我们这节课需要完成的所有目标。你可能会问如何爬更深层次的内容，如何爬图片？这么简单的内容下期再讲。节点1，触发器，第一个节点一定是触发器，代表什么时候运行。这个工作流高级的用法有定时运行，用户发消息时候运行。我们这期用最简单的就是手动触发，这样就结束了，真男人就是这么快。节点2，爬内容节疤N的强大之处就在于生态，你几乎可以找到任何想要的现成工具，这是国内的扣子所不具备的。当然如果扣子打钱了就不一定了。我们可以直接使用一个爬虫工具，搜索机能选择读取URL内容。这里我们需要给这个工具添加一个凭证，也就是APIK。我们搜索Gina找到官方网站，点击API，点击管理API密钥，可以看到每个密钥都有免费的额度，足够你用一阵子了。直接control c回到N8N点击创建新品钜control v我们还需要填写一个地址，也就是需要爬取哪个网站来到阿里的招聘网站control c control v执行可以看到很快就返回了爬回的结果。节点3AI处理数据。下面我们要使用AI节点将上一步里混乱的数据加工成清晰可用的内容。添加一个AI节点，选择AI agent。这里要选择下面的一个选项，define below. 在下方定义，意思是AI处理的内容基于我们下方的定义，而不是一个聊天式应用。这里我们需要写一段prompt，我将写好的直接粘进来。其实就是prompt的三个基本要求，你要它做什么？数据解析。具体的要求解析为四个标准的格式，返回的示例需要清楚标识示例的起止位置，如果你写不出来，也可以让AI帮你写。还有两个细节，一是你可以直接将上一步的输出拖拽拽进来表示应用。二是这里选择expression就是表表示这意味着prompt t不是定定的意思，是基于上游的输出数据变化。写完prompt之后，如果我们直接执行是会报错的。因为这个时候还没有配置模型，我们需要要写这里的输出一个模型，推荐大家选择open root。Open NTT是一个模型中转平台，意思是所有主流模型的API。我们登录open root官网，右上角选择peace创建一个APIP回到N8N和刚才一样，将这个key创建为凭证，这里就不再重复了。然后就可以通过open rotor选择任何模型，比如当前最强的GPT5，不同的模型调用的价格是不一样的。但要我付钱给你们演示是不可能的，毕竟这些视频没有广告。我们搜索free选择一个免费模型就可以给我点个赞好了。还有一个细节，在大模型节点选择需要特定的输出格式。这个开关的作用是保证大模型每次输出的结果都遵循一样의格式，做到百分百可控。打开后提示需要使用输出解析器指定格式。我们点击这个，选择最下方的格式器模式类型，选择Jason scheme，然后将一个Jason示例格式贴进来。这个其实很简单，因为有内置模板，你可以让大模型基于你的需求生成，最终形成的也就是需要解析为哪些字段，以及每个字段各自是什么格式。这些样例文件后续我都会免费公开出来，只需要你现在发一个弹幕模组真算。最后输出解析器也需要选择大模型，同样选择免费的模型就可以。我们执行一下，执行完毕，看到输出的标准结构的内容非常满意。节点4拆分输出。这个时候会有一个问题，就是大模型输出的结果虽然是标准结构化的，但是都混在一起在N8N里叫做一个item。而我们的场景需要将不同的岗位数据拆出来，再逐个添加到飞猪表格里。我们继续添加节点，选择数据转换，找到拆分输出，要先选择拆分哪个数据。我们观察上一步的输出，发现所有的岗位都在同一个输出里。直接把这个字段拖拽到需要拆分的地方，然后点击执行测试一下会发现生成了一个表格，里面有十条数据作为对比。我们看一下上个节点里虽然有多条数据，但是却在同一个单元格里回到N8N的画布，也可以看到一项数据进来，十项数据出去，非常满意。节点5写入飞出表格，获得十条数据之后，我们就可以将它写入任何地方。比如五个表格notion或者直接发邮件给你。我们演示的是写入飞书多维表格。这里有个问题，飞书多维表格并不是官方节点，但是可以从社区中获取。我们先保存刚才的工作流，回到首页设置，点击社区节点，点击安装，点击这个浏览入口，来到N8N社群，会发现这里有无数个网友奉献的社区节点。搜索factor light，这是我测试下来比较稳定的节点。右上角有一串神秘安装代码，control c回来CTRLB点击安装，安装完成了，点击N8N发布，点击刚才安装的的attract light，选择对应的功能。多维表格新增记录，然后有四项需要填写，一是凭证，二是多维表格的token，三是多维表格的表格ID4是请求体。首先是凭证，我们访问飞书开放平台，点击右上角的开发者后台，需要创建一个应用，随便输入一个应用名和描述。点击权限管理，找到多维表格，所有的权限开通再来一次，切换到第二个tab，全选开通，点击版本管理与发布，填写保存发布，再找到凭证与基础信息，找到密钥，和刚才一样粘贴到N8N的凭证里就可以了。然后我们需要创建一个多维表格，找到多维表格的官网，点击新建多维表格，随便取个名字。然后注意了，每一列表格的表头都必须和之前大模型里输出的相同。回到大模型节点，control c control v control c control control c control v control加c control v最后就是这个表格的talk和表格ID注意看这个表格的URL一定是这样的格式。主域名后面有一个base，如果不是base而是wiki代表你的多维表格，是知识库里我下方的方法不适用。Base后面是talk，而table后面就是表格。ID粘贴到N8N里之后，点击右上角的点点点，添加一个文档机器人，将刚才我们创建的机器人添加键回到N8N里。现在还有最后一步就是请求体，请求体의含义是以什么内容向飞猪发起新增数据的请求。这里可以找到模板，你可以直接参考我的内容，或者一样让AI帮你写一份。一切准备就绪后，我们直接执行飞书节点，成功了。回到刚才创建的多维表格，发现数据也成功写入了。搭建工作流一通百通，你只需要掌握少量节点，就可以快速拓展并学会其他节点。下一期我会带着你继续完善这个工作流，并且将最终的文件共享出来,下期再见。
《N8N爬虫工作流搭建攻略：轻松实现数据抓取与整合》
在当今数字化时代，数据抓取与整合变得越来越重要。N8N作为全球热度最高的AI工作流平台，为我们提供了强大的工具。本文将详细介绍如何使用N8N搭建一个爬虫工作流服务网站，让你轻松一键爬到网站信息，并自动填写到表格里。
首先，进行本地部署N8N。这意味着将你的电脑作为服务器，所有服务都在本地运行。搜索官方地址下载安装，安装完成后通过简单命令验证是否安装成功。启动N8N后，访问特定地址出现登录页面即部署成功。但要注意，电脑重启后需重新运行启动命令。
对于英文界面头疼的小伙伴，可通过安装沉浸式翻译插件实现汉化。添加插件后，在N8N中开启翻译功能，无论切换哪个子页面，都能自动翻译。
接下来，预览工作流。准备好阿里巴巴招聘网站和飞书子页面表格两个素材。通过设置触发器、调用爬虫工具、利用AI大模型处理数据、拆分输出以及写入飞书多维表格等步骤，20秒就能完成整个流程，轻松获取网站岗位信息并填入表格。
在这个过程中，使用爬虫工具时要添加凭证，处理数据时需写好prompt并配置模型，拆分输出要选择正确数据，写入飞书多维表格要获取并填写凭证、token、表格ID和请求体等信息。
搭建工作流一通百通，掌握少量节点就能快速拓展。跟着本文步骤，你也能轻松搭建属于自己的爬虫工作流服务网站，高效抓取和整合数据。
N8N,AI工作流平台,爬虫工作流,本地部署,汉化,模型API