通过学习【第02节采集单条数据】:采集单条数据中,我们学习了如何从单个网页抓取文本、图片、超链接等。对爬山虎"自定义采集"采集数据有了初步了解。本课将继续深入学习如何采集多个列表中的数据。
下面以豆瓣网图书列表为例:https://book.douban.com/chart?subcat=I
打开网页,可以看到很多结构相同的图书列表,每个图书列表中有同样的字段:图书标题、出版信息、评分、评价人数、图书简介等。
我们将上述网页上多个列表中的字段,按照网页排列顺序依次采集下来,保存为Excel等结构化的数据,如下图所示:
下面我们来学习,在爬山虎中如何操作如下: 实例地址:https://book.douban.com/chart?subcat=I
采集列表数据二种方法:
方法一:智能识别
在列表型的网页,爬山虎支持智能识别,自动识别列表数据。使用智能识别,只需输入网址,就能自动获取列表数据。
具体操作如下:输入网址
- 在起始页
输入框
中输入目标网址,点击下一步
,爬山虎自动打开网页,自动识别列表页数据。
方法二:手动选择列表
注:有部分网站,一个页面有几个列表项,爬山虎通过智能分析,自动匹配到常用列表数据,如果匹配的数据 不是我们需要的,这时,我们就要手动选择列表。
如何手动选择列表?
-
在起始页
输入框
中输入目标网址,点击下一步
,爬山虎自动识别列表(假设这数据不是我们需要的) -
清空所有
-列表模式/选择列表
根据提示点击网页上任何一个列表元素,即可自动识别此处列表数据。
** 如何修改字段名称?**
选中字段
/右击
/修改名称
三:采集数据并导出
点击下一步
启动采集,选择合适的导出方式导出数据。多种格式导出(发布),包括TXT、CSV、Excel、Access
MySQL、SQLServer、SQLite以及发布到网站接口(Api),这里导出为Excel。
数据示例:
通过以上学习,我们可以使用爬山虎采集一个完整的列表数据,也可以自定义选择列表数据。为后面的更深入的学习打了基础。