如何下载图片?

  1. 点击添加字段
  2. 鼠标点击网页中的图片,程序自动获取图片地址。(已有字段,选择重新选择元素,然后点击图片) download
  3. 选择要下载的字段,点击菜单按钮,选择文件下载菜单。

    download

  4. 设置文件名和图片的保存路径。。

    download

  5. 完成


关于自定义文件名

在爬山虎采集器中,可以使用一些自定义变量来命名文件名,比如任务名称、时间格式、随机字符、以及使用字段值来命名。这些之间可以自由组合。 download


关于自定义目录

在文件名中加入字符/,就可以生成目录。 比如设置文件名为 {title}/{原文件名} 就会自动创建{title}目录,然后以原文件名保存。


关于替换内容地址

如果采集的内容是要发布到网站上面,有下载图片的话,那就需要使用替换内容地址

把内容中的原网站图片地址替换为本地的相对地址,发布到网站后,在使用FTP软件把图片批量上传到网站目录,这样网页才会正常显示。

(一般网站都会对图片进行防倒链处理,禁止第三方网站直接引用)

如何下载多张图片

下载多张图片,我们需要修改图片XPath,来匹配多张图片。 具体XPath如何编写 参考


如何下载文章HTML内的多张图片

采集新闻、文章内容时,如果内容中包含图片,我们需要采集文章的HTML形式,设置取值属性InnerHTML或者OuterHTML。 然后直接设置下载即可,程序会自动检测内容中IMG标签,并且下载图片。


延时加载(懒加载)的图片

有2中方法采集延时加载的图片

  1. 分析HTML代码,找出原始图片地址。 一般图片地址都存在类似data-src,或者data-orignal这样的标签属性中。
  2. 使用脚本命令中的滚动命令,模拟浏览器的滚动,使得图片自动加载显示。 然后在设置采集。