本文介绍如何使用爬山虎采集器,采集大众点评网酒店评价信息,操作流程如下: (注:简易采集/生活服务里有对应的规则模板)
第一步:下载爬山虎采集器,安装完成之后打开软件
在软件起始页的“自定义采集”或者直接“新建”,输入网址;本站如需采集更多信息,需要登录。
第二步:抓取数据
采集器自动识别列表,但是数据不是我们需要的,清空全部
执行“进入编辑脚本模式”,点击“查看更多评论”,返回数据列表
(注:进入脚本模式后,操作跟正常浏览网页操作一样)
选择列表模式(评论部分是一个列表)
分页设置/手动识别分页(部分网站,分页自动识别不了就手动识别)
第三步:加载查看并导出数据
任务列表中:选中任务/右键/开始采集
通过日志,可以看到加载的进程
点击数据按钮,可直接预览数据
任务列表中:选中任务/点击查看 ,导出数据