网址参数介绍

在采集一些网站时,我们需要批量生成一批网址。 比如我们采集搜索引擎时,要许多不同关键词的搜索结果;以及批量生成分页地址。

我们以百度搜索为例,展示如何采集多关键词搜索结果。

首先,第一步输入网址 https://www.baidu.com/s?wd=test。 然后鼠标选中网址中的关键词test,这时会弹出生成网址参数窗口。

urlparam

这里有3种参数类型:

  1. 递增数字,按照给定的范围,生成出固定步长的数字。大部分用在生成分页地址上。
  2. 列表,这种类型是给定一些固定字符串,程序根据这些字符串集合生成网址。常常用在搜索关键词、指定采集频道、目录。
  3. 文本文件,这种类型从指定的txt文件中读取所有行,一行一条记录,组成网址。常用来组合搜索的关键词网址

我们选择列表类型, 然后输入要采集的关键词,比如 a,b,c,d,e,f 。多个关键词以英文逗号,分割。

点击确定。这样就完成了批量生成多关键词的网址了。 urlparam


生成分页参数

在上面的基础上,我们需要针对每个关键词,生成前10个分页的地址。

首先我们找到百度的分页参数是pn,起始为0,每页的步长为10。

那么我们要采集的网址就是https://www.baidu.com/s?wd=test&pn=0

先选择关键词,生成关键词列表。 然后选中0,选择 递增数字,设置起始为0,结束为100,步长为10。点击确定 urlparam

可以看到最终的网址为https://www.baidu.com/s?wd=[a,b,c,d,e,f]&pn=[0-100/10]

从文本文件导入网址

有时我们需要从文本文件中批量导入一批网址来进行采集,如何设置?

  1. 输入一个示例网址,比如https://www.baidu.com/
  2. 使用鼠标,全部选中这条网址
  3. 在弹出的参数设置框,选择文本文件类型,然后选择包含批量网址的txt文件。

urlparam