1. 教程中心
  2. 常见问题

XPath指南 | 概述

2017/5/21 1:27:05 0 967

XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。

在爬山虎采集器中,我们用XPath来查找定位网页中的HTML元素。在大部分命令中,都有用到XPath。 可以说XPath在采集器中是一个非常基础、非常重要的技术,在一些复杂的网页,可能需要手动 编写XPath表达式来解决问题。

具体的XPath知识,大家可用通过 http://www.w3school.com.cn/xpath/index.asp 来学习。

在爬山虎采集器中,通常XPath设置的界面如下:

通过点击“选择元素”,然后点击网页中的元素,软件会自动生成该元素的XPath。

在一些网页中,可能存在同一位置的元素有多种不同的HTML结构,比如百度的搜索结果页面,样式有很多种,带图片的、不带图片的、视频的、

仅有标题的等等。 这时我们就需要 “添加备选”,点击那个不同的元素。

一行一条XPath,可以通过手动编写。