采集单条模式,广泛的应用在我们日常采集中。常用于采集一般博客、新闻网站的内容页,或者叫详情页面。 本节我们来讲解,如何自己手动,配置一条采集规则,从最简单的单条数据采集开始。
下面以天猫商品详情页为例:
采集地址:https://detail.tmall.com/item.htmspm=a230r.1.14.13.5f054068y5a13z&id=621130995681&cm_id=140105335569ed55e27b&abbucket=19&skuId=4384430176593
采集字段:文本、标题、价格,销量,评价、图片
等。
下面我们将上述网页上,非结构化的文本、图片,超链接等字段采集下来,保存为excel等结构化的数据, 如下图所示:
下面我们来学习,在爬山虎中操作如下:
步骤一:创建一个新任务
在起始页自定义采集
中输入目标网址
(注:本站需要登录,点击网站需要登录
登录后关闭即可。)
步骤二:采集列表数据
点击下一步
,爬山虎自动打开网页,智能识别列表数据 。
(注:我们采集的是单条数据,智能识别列表数据不是我们需要的,这里需要手动修改,具体操作如下:)
1.手动修改列表模式
清空所有
-列表模式/单条模式
-添加字段
点击要采集的字段,重复同样操作,依次添加所需字段,直至完成即可。
2.修改字段名称
选中字段
-右击
-修改名称
步骤三:采集数据并导出
直接下一步
启动采集,选择需要的格式导出即可。
数据示例:
通过以上学习,我们可以使用爬山虎采集一条完整的单条数据,大家对简单的配置规则多了一分了解,为后面课程的学习打好了基础!