在采集一些网站时,网站会偶尔出现服务器问题,导致某些页面无法正常采集,返回状态码500,或者404错误。
这里我们可以使用请求重试功能,在第三步、设置中可以找到。
可以设置6种条件,来触发请求重新功能:
- 网址中包含
- 内容中包含
- 状态码等于
- 网址中不包含
- 内容中不包含
- 状态码不等于
这里主要基于3种格式:网址、返回内容、状态,来判断内容条件。
- 网址,请求网址,包含响应的跳转地址。
- 内容,即请求返回内容
- 状态码,用于在HTTP、JSON引擎中,判断状态码(Status Code)
同时可以设置最大重试次数和重试的间隔时间,具体设置可以针对具体网站状态进行调整。