下面为大家详细介绍淘宝数据采集的方法。
1、淘宝列表页采集(淘宝奶粉信息采集)
采集内容:搜索”奶粉“关键词后,出现的列表信息
采集字段:名称,图链接,价格,销量,店铺名,产地等。
采集地址:https://s.taobao.com/search?q=%E5%A5%B6%E7%B2%89&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.50862.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170831
第一步:新建任务
进入主页,选择“新建任务”输入需要采集的网址。
第二步:抓取数据
面板中,选择“分页设置"按钮,点击“自动识别分布",采集器方可自动识别抓取商品列表信息。
第三步:设置
(1)浏览器设置:为了提高加载速度,可以设置:拦截广告,禁用flash,禁止弹窗等
(2)计划任务:根据个人需要,无需要人工操作,可以按时按量自动采集导出数据。
第四步:数据加载、导出和保存
(1)加载数据
任务列表中:选中任务/点击开使
即可查看抓取数据的进程,也可以手动暂停停止。
(2)导出数据
选中任务/右击/导出数据
(3)保存数据
选择合适的导出方式及编码
我们选择excel作为导出为格式,数据导出后如下图