本文介绍使用爬山虎采集器,批量采集微博主发布文章内的图片。
采集网站:https://weibo.com/zshid?refer_flag=1001030103_
第一步:下载爬山虎采集器,安装完成之后打开软件
自定义采集或者文件新建,输入网址(注:此站需要登录,直接登录后关闭就可以了)
第二步:抓取数据
采集器自动识别列表数据,因为我们主要采集图片,多条的列右键删除。
F12网站后台找到图片的xpath,xpath学习
采集器中设置图片的xpath
设置取值属性
文件下载
说明:保留文章标题名称列,就是以标题给图片命名,这样方便区分。
瀑布流分页,下一步,直至完成。
第三步:加载数据
任务列表中:选中任务/点击开使
通过日志可以看出加载的进程 ,爬山虎采集器的速度是非常快的
暂停后,提示下载118个图片如下,注意文件名都是根据标题命名的