在爬山虎采集器中,可以通过自定义广告屏蔽,来加快采集速度。
具体语法参考 AdBlock Plus 过滤规则 ,规则为一行一个。
最常用的就是使用通配符,在指定字符前后加星号 *
技巧
一般我们在采集时,注意观察运行日志,如果出现了如下提示:
页面加载超过 30 秒限制. 超时请求: Transferring data from ih1.redbubble.net…
我们可以添加规则:*ih1.redbubble.net*
,过滤掉所有包含 ih1.redbubble.net 的请求,这种请求一般是外站图片、或者js请求。
注意:不要屏蔽你采集的网站主域名,比如你要采集 https://www.baidu.com/s?wd=x
,却加上规则 *www.baidu.com*
,这样的话,可能就采集不到数据。