手把手教你搭建爬虫工作流服务网站
N8N是全球热度最高的AI工作流平台,相比AI编程,工作流的优势是绝对的可控。毕竟AI生成的代码你看不懂,但是你亲手搭建的工作流一定能百分百知其所以然。这期我将手把手带你做一个爬虫工作流服务网站,居然一键爬到了网站信息,居然将网站信息自动填写到了表格里。完整看完这些视频,你可以学会上述爬虫工作流的搭建,免费使用N8N免费调用各大模型的API。学不会也没关系,因为我最后会将工作流公开出来,你可以直接下载,稍微修改修改就变成了你的项目。好的,马上开始。一本地部署N8N本地部署的含义是将你的电脑作为服务器,一切服务都运行在你自己的电脑上。我们搜索一下N8N然后进入第一个网站,是一个钓鱼网站,找到官方的N8N地址,右上角有按键可以跳转到GitHub,往下拉可以找到quick start。这里有提示requires node点JS也就是说在安装N8N之前,需要先安装node点JS访问网址,然后下载安装就可以。安装完成后,最好先验证下windows加R唤醒运行框,输入CMD唤醒终端,在终端里输入node杠1返回对应的版本,继续输入NPX杠1也返回对应的版本。如果这两步都返回了版本,那就说明node点GS已经安装完成了。给你点个赞,复制这行神秘代码NPX空格N8N它的含义是用NPX这个工具来启动N8N如果你是第一次使用,则需要等待一段时间完成下载。当看到这个version的时候,说明已经下载完成了。然后下方会有一行地址,local host 5678。访问这个地址看到N8N的登录页面,说明你的本地部署已经成功。给你点个赞。这里顺带提一下,后续你的电脑每次重启都需要重新运行NPX空格N8N命令,你才能够在你的浏览器里面使用N8N2N8N汉化,输入你的账号密码,一直往下就可以看到N8N的工作台。看到满屏的英文是不是想直接放弃?要放弃了吗?到此为止了吗?为什么以前没有好好学英语?为什么看美剧的时候要看中文字幕?哎,你可以安装和我一样的插件,一键翻译为中文。虽然社区里有N8N的汉化包,但安装过程非常繁琐,使用我这个插件则更加灵活,重点是免费。你可以在浏览器里搜索沉浸式翻译,进入第一个,这回不是钓鱼网站了,点击右上角的艾特,将它添加到你的浏览器就可以。我们回到N8N可以在插件里开启,总是翻译该网页。这样不管我们怎么切换N8N的子页面,都会默认帮我们进行翻译。3、预览工作流,这是我们已经搭建完成的工作流,看着很简单是吧,但作为入门教程,够你学了,思路是最重要的。这里我准备了两个素材,一个是阿里巴巴的招聘网站,我们要从这个网站里爬到所有的岗位信息,为什么要爬这个网站?因为不敢爬有版权的小说和漫画,当然我相信你可以试一试,给你点个赞。第二是飞书的子页面,我们已经提前建好的表格,但现在内容还是空的。我们回到工作流,点击执行20秒就能跑完。节点一是触发器代表什么时候运行工作流,节点二是一次爬虫工具的调用,可以看到已经拿到了网站里的所有内容。节点三是AI大模型相比上一步过滤掉了无效的内容,并输出了清晰的结构。节点4是拆分,将每个岗位都拆成了独立的数据,共拆成了十条。节点5是飞书多维表,自动将十条数据写入表格。我们来到飞书表格,发现多了十条数据。这便是我们这节课需要完成的所有目标。你可能会问如何爬更深层次的内容,如何爬图片?这么简单的内容下期再讲。节点1,触发器,第一个节点一定是触发器,代表什么时候运行。这个工作流高级的用法有定时运行,用户发消息时候运行。我们这期用最简单的就是手动触发,这样就结束了,真男人就是这么快。节点2,爬内容节疤N的强大之处就在于生态,你几乎可以找到任何想要的现成工具,这是国内的扣子所不具备的。当然如果扣子打钱了就不一定了。我们可以直接使用一个爬虫工具,搜索机能选择读取URL内容。这里我们需要给这个工具添加一个凭证,也就是APIK。我们搜索Gina找到官方网站,点击API,点击管理API密钥,可以看到每个密钥都有免费的额度,足够你用一阵子了。直接control c回到N8N点击创建新品钜control v我们还需要填写一个地址,也就是需要爬取哪个网站来到阿里的招聘网站control c control v执行可以看到很快就返回了爬回的结果。节点3AI处理数据。下面我们要使用AI节点将上一步里混乱的数据加工成清晰可用的内容。添加一个AI节点,选择AI agent。这里要选择下面的一个选项,define below. 在下方定义,意思是AI处理的内容基于我们下方的定义,而不是一个聊天式应用。这里我们需要写一段prompt,我将写好的直接粘进来。其实就是prompt的三个基本要求,你要它做什么?数据解析。具体的要求解析为四个标准的格式,返回的示例需要清楚标识示例的起止位置,如果你写不出来,也可以让AI帮你写。还有两个细节,一是你可以直接将上一步的输出拖拽拽进来表示应用。二是这里选择expression就是表表示这意味着prompt t不是定定的意思,是基于上游的输出数据变化。写完prompt之后,如果我们直接执行是会报错的。因为这个时候还没有配置模型,我们需要要写这里的输出一个模型,推荐大家选择open root。Open NTT是一个模型中转平台,意思是所有主流模型的API。我们登录open root官网,右上角选择peace创建一个APIP回到N8N和刚才一样,将这个key创建为凭证,这里就不再重复了。然后就可以通过open rotor选择任何模型,比如当前最强的GPT5,不同的模型调用的价格是不一样的。但要我付钱给你们演示是不可能的,毕竟这些视频没有广告。我们搜索free选择一个免费模型就可以给我点个赞好了。还有一个细节,在大模型节点选择需要特定的输出格式。这个开关的作用是保证大模型每次输出的结果都遵循一样의格式,做到百分百可控。打开后提示需要使用输出解析器指定格式。我们点击这个,选择最下方的格式器模式类型,选择Jason scheme,然后将一个Jason示例格式贴进来。这个其实很简单,因为有内置模板,你可以让大模型基于你的需求生成,最终形成的也就是需要解析为哪些字段,以及每个字段各自是什么格式。这些样例文件后续我都会免费公开出来,只需要你现在发一个弹幕模组真算。最后输出解析器也需要选择大模型,同样选择免费的模型就可以。我们执行一下,执行完毕,看到输出的标准结构的内容非常满意。节点4拆分输出。这个时候会有一个问题,就是大模型输出的结果虽然是标准结构化的,但是都混在一起在N8N里叫做一个item。而我们的场景需要将不同的岗位数据拆出来,再逐个添加到飞猪表格里。我们继续添加节点,选择数据转换,找到拆分输出,要先选择拆分哪个数据。我们观察上一步的输出,发现所有的岗位都在同一个输出里。直接把这个字段拖拽到需要拆分的地方,然后点击执行测试一下会发现生成了一个表格,里面有十条数据作为对比。我们看一下上个节点里虽然有多条数据,但是却在同一个单元格里回到N8N的画布,也可以看到一项数据进来,十项数据出去,非常满意。节点5写入飞出表格,获得十条数据之后,我们就可以将它写入任何地方。比如五个表格notion或者直接发邮件给你。我们演示的是写入飞书多维表格。这里有个问题,飞书多维表格并不是官方节点,但是可以从社区中获取。我们先保存刚才的工作流,回到首页设置,点击社区节点,点击安装,点击这个浏览入口,来到N8N社群,会发现这里有无数个网友奉献的社区节点。搜索factor light,这是我测试下来比较稳定的节点。右上角有一串神秘安装代码,control c回来CTRLB点击安装,安装完成了,点击N8N发布,点击刚才安装的的attract light,选择对应的功能。多维表格新增记录,然后有四项需要填写,一是凭证,二是多维表格的token,三是多维表格的表格ID4是请求体。首先是凭证,我们访问飞书开放平台,点击右上角的开发者后台,需要创建一个应用,随便输入一个应用名和描述。点击权限管理,找到多维表格,所有的权限开通再来一次,切换到第二个tab,全选开通,点击版本管理与发布,填写保存发布,再找到凭证与基础信息,找到密钥,和刚才一样粘贴到N8N的凭证里就可以了。然后我们需要创建一个多维表格,找到多维表格的官网,点击新建多维表格,随便取个名字。然后注意了,每一列表格的表头都必须和之前大模型里输出的相同。回到大模型节点,control c control v control c control control c control v control加c control v最后就是这个表格的talk和表格ID注意看这个表格的URL一定是这样的格式。主域名后面有一个base,如果不是base而是wiki代表你的多维表格,是知识库里我下方的方法不适用。Base后面是talk,而table后面就是表格。ID粘贴到N8N里之后,点击右上角的点点点,添加一个文档机器人,将刚才我们创建的机器人添加键回到N8N里。现在还有最后一步就是请求体,请求体의含义是以什么内容向飞猪发起新增数据的请求。这里可以找到模板,你可以直接参考我的内容,或者一样让AI帮你写一份。一切准备就绪后,我们直接执行飞书节点,成功了。回到刚才创建的多维表格,发现数据也成功写入了。搭建工作流一通百通,你只需要掌握少量节点,就可以快速拓展并学会其他节点。下一期我会带着你继续完善这个工作流,并且将最终的文件共享出来,下期再见。
《N8N爬虫工作流搭建攻略:轻松实现数据抓取与整合》
在当今数字化时代,数据抓取与整合变得越来越重要。N8N作为全球热度最高的AI工作流平台,为我们提供了强大的工具。本文将详细介绍如何使用N8N搭建一个爬虫工作流服务网站,让你轻松一键爬到网站信息,并自动填写到表格里。
首先,进行本地部署N8N。这意味着将你的电脑作为服务器,所有服务都在本地运行。搜索官方地址下载安装,安装完成后通过简单命令验证是否安装成功。启动N8N后,访问特定地址出现登录页面即部署成功。但要注意,电脑重启后需重新运行启动命令。
对于英文界面头疼的小伙伴,可通过安装沉浸式翻译插件实现汉化。添加插件后,在N8N中开启翻译功能,无论切换哪个子页面,都能自动翻译。
接下来,预览工作流。准备好阿里巴巴招聘网站和飞书子页面表格两个素材。通过设置触发器、调用爬虫工具、利用AI大模型处理数据、拆分输出以及写入飞书多维表格等步骤,20秒就能完成整个流程,轻松获取网站岗位信息并填入表格。
在这个过程中,使用爬虫工具时要添加凭证,处理数据时需写好prompt并配置模型,拆分输出要选择正确数据,写入飞书多维表格要获取并填写凭证、token、表格ID和请求体等信息。
搭建工作流一通百通,掌握少量节点就能快速拓展。跟着本文步骤,你也能轻松搭建属于自己的爬虫工作流服务网站,高效抓取和整合数据。
N8N,AI工作流平台,爬虫工作流,本地部署,汉化,模型API
《N8N爬虫工作流搭建攻略:轻松实现数据抓取与整合》
在当今数字化时代,数据抓取与整合变得越来越重要。N8N作为全球热度最高的AI工作流平台,为我们提供了强大的工具。本文将详细介绍如何使用N8N搭建一个爬虫工作流服务网站,让你轻松一键爬到网站信息,并自动填写到表格里。
首先,进行本地部署N8N。这意味着将你的电脑作为服务器,所有服务都在本地运行。搜索官方地址下载安装,安装完成后通过简单命令验证是否安装成功。启动N8N后,访问特定地址出现登录页面即部署成功。但要注意,电脑重启后需重新运行启动命令。
对于英文界面头疼的小伙伴,可通过安装沉浸式翻译插件实现汉化。添加插件后,在N8N中开启翻译功能,无论切换哪个子页面,都能自动翻译。
接下来,预览工作流。准备好阿里巴巴招聘网站和飞书子页面表格两个素材。通过设置触发器、调用爬虫工具、利用AI大模型处理数据、拆分输出以及写入飞书多维表格等步骤,20秒就能完成整个流程,轻松获取网站岗位信息并填入表格。
在这个过程中,使用爬虫工具时要添加凭证,处理数据时需写好prompt并配置模型,拆分输出要选择正确数据,写入飞书多维表格要获取并填写凭证、token、表格ID和请求体等信息。
搭建工作流一通百通,掌握少量节点就能快速拓展。跟着本文步骤,你也能轻松搭建属于自己的爬虫工作流服务网站,高效抓取和整合数据。
N8N,AI工作流平台,爬虫工作流,本地部署,汉化,模型API
评论 (0)
