如何下载图片?
-
点击
添加字段
。 -
鼠标点击网页中的图片,程序自动获取图片地址。(已有字段,选择
重新选择元素
,然后点击图片) -
选择要下载的字段,点击菜单按钮,选择
文件下载
菜单。 -
设置文件名和图片的保存路径。。
-
完成
关于自定义文件名
在爬山虎采集器中,可以使用一些自定义变量来命名文件名,比如任务名称、时间格式、随机字符、以及使用字段值来命名。这些之间可以自由组合。
关于自定义目录
有时我们需要把下载文件存放在不同目录,比如采集淘宝图片时,我们希望同一个商品的多张图片,保存在以该商品ID命名的目录下。 我们就可以将文件名设置未 {商品ID}/{原文件名}
,其中,{商品ID}
是我们采集商品ID的字段名称,这个字段的顺序必须要放在下载图片字段之前。
在文件名中加入字符/
,就可以生成目录。 比如设置文件名为 {title}/{原文件名}
, 就会自动创建{title}
目录,然后以原文件名保存。
关于图片地址本地化
如果采集的内容是要发布到网站上面,有下载图片的话,那就需要使用替换内容地址。
把内容中的原网站图片地址替换为本地相对地址。发布到网站后,在使用FTP软件把图片批量上传到网站目录,这样网页才会正常显示。
(一般网站都会对图片进行防倒链处理,禁止第三方网站直接引用)
如何下载多张图片
下载多张图片,我们需要修改图片XPath,来匹配多张图片。 具体XPath如何编写 参考
如何下载文章HTML内的多张图片
采集新闻、文章内容时,如果内容中包含图片,我们需要采集文章的HTML形式,设置取值属性为InnerHTML
或者OuterHTML
。 然后直接设置下载即可,程序会自动检测内容中IMG标签,并且下载图片。
延时加载(懒加载)的图片
有2中方法采集延时加载的图片
- 分析HTML代码,找出原始图片地址。 一般图片地址都存在类似
data-src
,或者data-orignal
这样的标签属性中。 - 使用脚本命令中的滚动命令,模拟浏览器的滚动,使得图片自动加载显示。 然后在设置采集。