通过学习【第2节采集单条数据】【第3节采集列表数据】,我们学会了如何采集单条及多条列表数据。本节课我们学习,如何从列表页进入详情页采集,列表页和详情页的数据都需要采集。
下面我们以58同城租房为例,采集58同城租房子列表,及详情页数据:
案例地址:
https://hf.58.com/chuzu/?utm_source=market&spm=u-2d2yxv86y3v43nkddh1.BDPCPZ_BT&PGTID=0d100000-0034-5d7b-6bb8-da8df91cf65e&ClickID=2
可以看到,每行列表项的标题都有链接,点击进入详情页面。
点击链接,进入详情页后可选择需要采集的字段,我们采集详情页:房屋亮点
和房屋描述
。
下面是我们按照网页上列表链接的顺序,爬山虎自动依次点击链接进入详情页,然后采集详情页中的字段,并 保存为Excel等结构化的数据。
具体操作如下:
第一步:输入网址
在起始页输入框
中输入目标网址,点击下一步
,
第二步:抓取数据
爬山虎自动识别列表数据,选中链接
字段-深入此链接
,
- 01:自定义添加字段
深入链接至详情页后,添加字段
,点击需要采集的文本
注:字段“房屋亮点”,需要二步简单的数据处理。
a: 我们需要选中“房屋亮点”后面整行文本描述,通过点击只能选择了第一个词。
选中该字段
—右击
—修改为xpath
为://ul[@class='introduce-item']/li[1]/span[2]
b:修改后,鼠标放上,可以看出所有文本都包含了,但是文本有格式是乱的,
选中该字段
—右击
—设置取值属性
为FormattedText
具体操作流程如下:
- 02:修改列表页及详情页字段名称
选中该字段—右击—修改名称
(如:名称,地址,经纪人及价格等)
第三步:采集数据并导出
修改完字段名后,整个规则编辑完成,然后下一步
直至采集完成。采集完成后,选择合适的导出方式导出数据,,这里导出为Excel。
采集数据示例:
通过以上学习,我们可以使用爬山虎编辑了一个完整的规则,采集列表页及详情页的数据,为后面的更深入的学习打了基础。