通过前几课的学习,我们已经学会了【采集单条数据】、【多条列表数据】、【表格数据】及点击链接进入【详情页数据。】日常采集数据时,网页上不止一页数据,都会有很多页,下面我们学习如何设置分页数据,采集多页多条数据?
首先介绍常见的几种分页类型,以及如何用爬山虎采集分页的方法。
一、自动识别分页
爬山虎可以识别90%的分页元素
操作如下:通过选择分页设置
- 自动识别分页
,识别成功后,提示已识别到分页元素
。
操作流程如下:
二、手动设置分页
有少部分网站,自动识别分页不成功,这时候就需要我们手动去设置分页。 手动分页分二步:
01:选择分页设置
- 手动设置分页
02:点击选择分页元素
在浏览器中找到下一页元素
并点击
操作流程如下:
三、瀑布流分页
日常采集中,我遇到很多网页都是用了瀑布流分页
技术,比如百度图片、知乎、今日头条,这类型网页,随着鼠标向下滑动,不断加载新的数据.
操作如下:选择分页设置
- 瀑布流分页
采集器会自动滚到网页,直到分页完成。
四、瀑布流+分页页码的组合形式
日常采集中,有少部分网站分页比较特殊,比如向下滚动5次后,才会展示分页页码。这时我们就需要使用
瀑布流+分页页码
的形式来完成分页设置。
如何判断瀑布流分页?
下面以京东商品搜索为例。
在起始页输入框
中输入目标网址,点击下一步
,爬山虎自动识别商品列表(注:本站需要登陆,点击登陆后,直接关闭即可)。
可以看出爬山虎第一页自动识别30个商品列表,但第一页实际有60个商品列表,下面在爬山虎中滚动商品列表从顶部直至底部,刷新后查看列表数据,可以看到60个商品列表全部识别,由此可以判断这就是瀑布流加载。
如何设置瀑布流+分页页码?
使用脚本命令
手动添加一个滚动命令
,具体设置滚动几页、滚动间隔时间,需要针对具体网站进行测试。
下面京东商品搜索为例: https://search.jd.com/Searchkeyword=%E5%BE%AE%E6%B3%A2%E7%82%89&enc=utf-8&suggest=4.his.0.0&wq=&pvid=2d6c994230244efaa9d62e1f120c9da4
Step1: 分页设置
-瀑布流分页
Step2:点击脚本命令
-添加命令
-滚动
(注:通过不断的调整测试,具体设置滚动几页、滚动间隔时间,需要针对具体网站进行测试。最终目的是滚动整页,从顶部滚动到底部)
3:设置
在其他设置
中,勾选在分页上执行采集脚本
这样在每次打开分页后,都会执行滚动命令。
通过以上操作,一个完整的瀑布流+分页页码
的组合形式,我们就设置完成。
人性化设置:
1、设置采集最大分页
此设置广泛应用在更新采集时,非常方便,比如网站每天更新的内容都在前3页中,我们就可以设置最大分页为 3页,这样爬山虎就采集更的前3页数据,节约时间,精准采集。
2、加载更多形式
有些网站下一页会使用加载更多
这样的按钮,点击才会展示更多数据。 采集这种类型的页面,我们需要手
动设置分页, 把加载更多
当作下一页
按钮来点击即可。
通过本讲学习,我们掌握了爬山虎三种分页类型,自动识别分页>手动设置分页>瀑布流分页,这三种类型99% 覆盖全网分页元素。