下面为大家详细介绍微信公众号文章的采集方法(xpath+列表页+内容页)
采集网站:http://weixin.sogou.com/weixin?type=1&s_from=input&query=扬子晚报&ie=utf8&sug=n&sug_type=
采集内容:微信公众号文章
采集字段:文章名称、发布时间、内容
第一步:新建任务
进入主页,选择“新建任务”输入需要采集的网址。
第二步:抓取数据
网页结构原因,无法自动识别列表,需要手动添加 清空所有,添加字段/点击标题(标题链接内容,所以要抓取链接) 标题就是链接,删除多余的标题字段
链接部分需要手动设置xpath(xpath学习:http://www.w3school.com.cn) 设置xpath属性值 选中链接/深入此链接 跳转到标题列表页,可以看到列表数据已自动加载 要采集标题内容页(标题链接内容页,标题即是链接)
文章标题需保留,添加字段/点击标题(目的是为了得到链接),取值属于设置:"hrefs" 选中链接/深入此链接 跳转到内容页,添加字段,点击选中整篇文章
第三步:设置
根据需要,自定义设置,可以大大提高加载速度及工作效率。
第四步:加载数据
任务列表中:选中任务/点击开使 点数数据,可以预览数据,也可以看到加载的进程 第五步:查看保存数据 任务列表中:选中任务/点击查看 预览数据也可以能过查看数据查看,并导出数据 选择合适的保存格式