一、什么类型网址适合批量生成?
只有网址参数值发生变化,其它组成结构不变。 举例说明:
1、豆瓣电影详情页:
https://movie.douban.com/subject/27098602/?from=playing_poster https://movie.douban.com/subject/30466931/?from=playing_poster https://movie.douban.com/subject/35158160/?from=playing_poster https://movie.douban.com/subject/30279836/?from=playing_poster https://movie.douban.com/subject/26613692/?from=playing_poster https://movie.douban.com/subject/30271717/?from=playing_poster https://movie.douban.com/subject/26818326/?from=playing_poster
通过以上网址我们可以看出,通过点击不同电影链接,到达详情页,只有?
前面的27098602
这个参数发生了变化,此网址中,这些数据解析为不同电影的名称。
2、京东手机商品详情页:
https://item.jd.com/100010366283.html https://item.jd.com/100016784108.html https://item.jd.com/100014348492.html https://item.jd.com/100017628668.html https://item.jd.com/100010366283.html https://item.jd.com/100012223322.html
同理,可以看下,通过点击不同手机链接,到达详情页,只能100010366283
这个参数发生变化,此网址中
这些数据解析为不同品牌手机的名称。
下面我们以豆瓣电影为例:
采集每个豆瓣电影详情页的电影
,评分
,评价
等数据。
第一步、批量输入网址
生成批量网址参数,有二种方法:手动输入
和通过文本文件导入
,更推荐第二种,方便预览便于修改。
- 方法1:手动输入批量网址
-
方法2:文本文件导入(推荐)
-
新建
txt
,里面输入多条网址,一行一条。 -
首先输入一个文本或网址,选中弹出的
参数设置框
,选择文本文件
类型,然后选择到导入事先编辑好的txt文件确定即可。
第二步:抓取数据,自定义添加需要采集的字段
修改字段名称,选中字段修改名称
第三步:采集导出数据
懒人式加载点击下一步
直至完成即可。
数据预览