本文介绍使用爬山虎采集器,批量采集微博微博粉丝信息。
采集粉丝群体字段:粉丝ID、粉丝主页URL、关注人数、关注页URL、粉丝数、粉丝页URL、微博数、微博数URL、地址、简介、关注方式、关注方式URL。
采集网站:https://weibo.com/p/1005052396658275/follow?relate=fans&from=100505&wvr=6&mod=headfans¤t=fans#place
第一步:下载爬山虎采集器,安装完成之后打开软件
在软件起始页的“自定义采集”或者直接“新建”,输入网址,本网站需要登录
第二步:抓取数据
采集器自动识别列表数据,因为要爬取多个url,所以先不需要删除列,在手动添加字段
修改下表头名称,自动识别分页,下一步直到完成
第三步:加载数据
任务列表中:选中任务/右键/开始采集
通过日志,可以看到加载的进程
点击数据按钮,可直接预览数据
第四步:查看保存数据
任务列表中:选中任务/点击查看 ,导出数据