爬山虎器配置二种数据采集模式:【简易采集】和【自定义置采集】
-
【简易采集】:就是使用模板采集,具体操作方法可以参考 简易采集
-
【自定义采集】:自定义配置采集规则(流程) 爬山虎智能识别,自动匹配网页数据,我们只需要简单配置,数据处理即可完成规则配置。
下面通过8节内容来介绍,如何使用爬山虎【自定义置采集】来采集数据。
第1节:【自定义采集】基本介绍(含智能识别)
爬山虎算自定义置采集
四步曲
[1.输入网址]—[2.抓取数据]—[3.设置]—[4.采集下载]
如何使用自定义采集?
示例网址:https://s.weibo.com/top/summar
第一步:输入网址
打开爬山虎客户端,选择自定义置采集
,根据提示,输入搜索后的目标网址。
第二步:抓取数据
点击下一步
,爬山虎自动打开网页并开始智能识别列表数据,
第三步:设置
根据需求,可以自定义屏蔽广告,例如:设置禁止图片,拦截广告、禁用图片、弹窗等,以提高采集效率。 (注:爬山虎默认设置已调配好,采集正常情况下,无特殊需求,无需编辑,直接下一步即可。)
第四步:采集下载数据
直接按提示下一步
即可启动采集,选择需要的导出格式导出,这样“微博热搜列表数据“的采集及下载就完成了。
完整的操作流程如下:
通上可以看出爬山虎智能识别功能,特别强大,操作简单,方便实用。
智能识别:只需输入网址,爬山虎自动识别网页数据。支持自动匹配列表数据、自动识别分页,滚动和瀑布流分页等。