通过前几课的学习,我们已经掌握一个完整的规则配置,完成采集并下载所需的数据。本节课我们在此基础 上,将详解爬山虎的采集原理,更近一步深入了解爬山虎。
一、爬山虎采集原理
1、模拟人访问网页的行为,内置Chrome浏览器浏览网页数据。
-
采集前提:首先找到数据源(数据在网站上存在的具体位置)
-
输入目标网址:输入搜索后网址(有采集数据的网址)
-
浏览网页时,需要点击链接,进入详情查看;爬山虎可以通过设置
深入链接
,一键进入详情页。 -
浏览网页时,需要输入条件,查看筛选后的数据。爬山虎可以通过设置
脚本命令
,具体设置步骤同浏览网页时,筛选顺序一样的。
2、根据网页特性和采集需求,配置采集规则 ,全自动采集数据。
什么“配置规则”?
在使用爬山虎采集时,我们会根据网页特性和采集需求,进行一步一步配置,从第一步输入网址
至第三步
开使采集
爬山虎会将我们的操作流程记录下来,自动保存在左侧任务中,这个过程就叫配置规则。
(注:日后使用,只要网页结构不变,规则就无需修改,点击直接使用。日常我们浏览网页的动作,浏览器不会被记录下来,比如:淘宝网输入关键词电视
查询相关商品数据,下次还
手动输入。)
3、什么类型的网站数据可以采集?
爬山虎采集器是一款通用的网页采集软件,只要是网页上展示的、可见的,有权限浏览的数据都是可以采集;
4、自动化流程
可以采集表格数据、文档、图片及其他各种形式文件,自动批量上传本地电脑。并将采集的数据导出为各种格式文件、数据库、网站API接口。 可以定时运行,自动发布,增量更新采集,完全实现自动化运行,无需要人工干涉,极大提高人们从互联网上获取数据的效率。