在我们采集一些网站时,会出现一些网页的样式结构不同,导致一部分网页数据采集不到。
针对这种问题,首先我们需要找到采集失败的网址。
下面我们以搜狐的新闻内容页为例: http://news.sohu.com/20180324/n533151619.shtml
通过新建字段,点击内容,获取到内容的XPath://*[@id="contentText"]
这里内容是采集成功的。
接下来我们来测试一条不同的网址:http://www.sohu.com/a/200938137_114731
在地址栏输入以上网址,点击箭头进入访问。
发现这里无法采集到内容,说明网页样式不一样。 这里我们需要补充下抓取的XPath。
点击字段的菜单,选择添加新元素
,然后点击网页中的正文部分。
然后,就可以正常采集刚才的问题页面了。