1. 教程中心
  2. 常见问题

部分网页采集的数据不全如何处理?

2018/7/22 10:21:18 0 738

在我们采集一些网站时,会出现一些网页的样式结构不同,导致一部分网页数据采集不到。

针对这种问题,首先我们需要找到采集失败的网址。

下面我们以搜狐的新闻内容页为例: http://news.sohu.com/20180324/n533151619.shtml

通过新建字段,点击内容,获取到内容的XPath://*[@id="contentText"]

这里内容是采集成功的。

接下来我们来测试一条不同的网址:http://www.sohu.com/a/200938137_114731

在地址栏输入以上网址,点击箭头进入访问。

发现这里无法采集到内容,说明网页样式不一样。 这里我们需要补充下抓取的XPath。

点击字段的菜单,选择添加新元素,然后点击网页中的正文部分。

然后,就可以正常采集刚才的问题页面了。

相关问题:采集文章正文时,鼠标无法选中整个内容时怎么办?