为您找到 10 条 多级页面 相关搜索结果

多级页面采集
介绍在创建第一个任务示例中,我们演示了如何采集列表页数据。 有时不仅要采集列表页数据,还要采集内容页。下面就来介绍下如…
列表模式和单条模式
列表模式 ,顾名思义,就是针对包含多条数据记录的页面,我们一般称为列表页。比如百度、谷歌的搜索结果页面,就是一个典型的…
如何抓包获取Cookie,并且手动设置
首先,使用谷歌浏览器打开要采集的网站,并且登陆。然后按下 F12,会出现开发者工具,选择 Network![](htt…
请求重试功能
在采集一些网站时,网站会偶尔出现服务器问题,导致某些页面无法正常采集,返回状态码500,或者404错误。这里我们可以使…
部分网页采集的数据不全如何处理?
在我们采集一些网站时,会出现一些网页的样式结构不同,导致一部分网页数据采集不到。针对这种问题,首先我们需要找到采集失败…
爱奇艺电视剧列表相关信息的采集
本文介绍如何使用爬山虎采集器,采集电视剧列表相关信息,操作流程如下:第一步:下载爬山虎采集器,安装完成之后打开软件在软…
脚本命令
采集前执行脚本这个功能主要针对一些单页应用(需要填写表单、点击等操作,URL不变),比如百度地图(ditu.baidu…
自定义广告屏蔽
在爬山虎采集器中,可以通过自定义广告屏蔽,来加快采集速度。具体语法参考 AdBlock Plus 过滤规则 ,规则为一…
分页采集
通常采集列表数据时,都会有分页,如何采集分页中的数据呢?在爬山虎采集器中,我们可以采集以下几种分页类型自动识别分页爬山…
数据处理
一般情况下,我们采集到的网页数据需要进行二次处理,比如替换关键词、移除空白字符、进一步提取、格式转换、HTML标签处理…