抓包获取网址
首先,我们需要通过抓包获取到ajax的请求地址。
使用谷歌浏览器打开 https://www.zhihu.com/question/286619877 ,在浏览器中,按下 F12
,会出现开发者工具,选择 Network
。
然后,在浏览器中把滚动条拖到底部。可以看到请求的链接,answers...开头的就是我们需要的请求。 选中,在右侧可以查看 json 数据预览。
找到请求后,选中请求,然后右击,选择Copy
-> Copy request headers
。
创建采集任务
在复制了 request headers
后,我们打开采集器,新建一个任务。
首先,在第一步,勾选POST 请求
,然后点击从剪切板粘贴 Headers
,粘贴完成之后,取消勾选POST 请求
。
然后选择 Url 编码
为UTF-8。
然后点击下一步,在第二部,我们切换到JSON 引擎
。
接下来,我们点击列表模式
下的选择列表
。
然后我们 就可以添加需要抓取的字段了。点击添加字段
,然后在JSON树中点击需要抓取的数据节点。
到这里我们就完成了单页数据的抓取设置。
批量生成分页
下面我们在回到第一步,来设置采集分页的参数。
选中offset=后面的8,会弹出批量生成网址窗口,这里我们设置最大100,步长为5。(最多采集100条,这里可以自己定义修改)
最后,一直下一步,然后完成,然后我们可以点击 开始
,来运行采集。