下面为大家详细介绍博客园数据的采集方法(列表数据+内容页)
采集网站:https://home.cnblogs.com/kb/
采集内容:博客园列表数据+内容页
采集字段:标题、简介、浏览量、推荐、作者、发布时间及标题内页文章等
第一步:新建任务
进入主页,选择“新建任务”输入需要采集的网址。
第二步:抓取数据
采集器自动识别列表数据(可以根据需求自定义添加删除字段)
需要抓取标题对应的内容页:选标题链接/深入此链接
弹出标题内页:单条列表模式/添加字段(可以根据需求自定义添加字段)
第三步:加载数据
任务列表中:选中任务/点击开使
可以看到加载的进程
第四步:查看保存数据
任务列表中:选中任务/点击查看
可以预览刚加载的数据,并导出数据