一般情况下,在爬山虎采集器中,通过鼠标点击,选择要抓取的内容。 但是在一些情况下,比如要抓取一篇文章的完整内容时,内容较长时,鼠标有时就不好定位了。
-
我们可以通过
右击网页
->检查元素
,来定位内容。 -
通过点击“向上”按钮,扩大选择的内容。
-
当扩大到我们的整篇内容时,全选中XPath,然后复制。
-
修改字段的XPath,把刚才复制的XPath粘贴进去,确定。
-
最后,修改
取值属性
,想要HMTL就使用InnerHTML
或者OuterHTML
。
一般情况下,在爬山虎采集器中,通过鼠标点击,选择要抓取的内容。 但是在一些情况下,比如要抓取一篇文章的完整内容时,内容较长时,鼠标有时就不好定位了。
我们可以通过右击网页
->检查元素
,来定位内容。
通过点击“向上”按钮,扩大选择的内容。
当扩大到我们的整篇内容时,全选中XPath,然后复制。
修改字段的XPath,把刚才复制的XPath粘贴进去,确定。
最后,修改取值属性
,想要HMTL就使用InnerHTML
或者OuterHTML
。