如何设置高级过滤?
点击对应字段的下拉菜单,点击高级过滤
弹出高级过滤的窗口界面,
可以看到高级过滤包含4大分类
包含9大过滤条件
,下面我们逐一尝试。
具体过滤条件介绍
只有符合条件的,才会保留下拉,不符合条件的就会丢弃。
一.包含
设置字段内容包含关键词,支持正则表达式
01.必须包含
以58招聘信息为例:需要筛选出本科学历,
点击学历
字段,高级过滤
-必须包含
-值输入本科
结果比对,学历不是本科
已被标注删除线,启动采集自动丢弃。
02.不得包含
以58招聘信息为例:
需要筛选出不包含本科学历
点击学历
字段,高级过滤
-不得包含
-值输入本科
结果比对,学历本科
已被标注删除线,启动采集自动丢弃。
二.数字
对字段值为数字类型的进行过滤,比如价格、销量,值可以为整数、浮点数。
01.数字大于
下面以头条数据为例:
对评论数进行筛选,点击评论数值
字段-高级过滤
-数据大于
-值输入1000
结果比对,大于1000的评论数
已被标注删除线,启动采集自动丢弃。
02.数字小于
以下图为例:
点击评论
字段,高级过滤
-数据小于
-值输入100
可以看到,小于100的数据,已被标注删除线,启动采集后自动丢弃。
三.日期
对采集到的时期进行过滤,常用于采集舆情类网站。比如:采集新闻,就可以过滤掉今天之前的内容,只采集当天。
01.日期大于
以微博网站为例:
点击时间
字段,高级过滤
-日期大于
-值输入2019-10-1
可以看到,日期大于2019-10-1
的数据,已被标注删除线,启动采集后自动丢弃。
02.日期小于
以微博网站为例:
点击时间
字段,高级过滤
-日期小于
-值输入2019-10-1
可以看到,日期小于2019-10-1
的数据,已被标注删除线,启动采集后自动丢弃。
03.日期等于
点击时间
字段,高级过滤
-日期等于
-值输入2020-04-22
可以看到,日期等于2020-04-22的数据,已被标注删除线,启动采集后自动丢弃。
四.长度
长度单位换算:一个字节
=一个长度
长度通过字段内容的长度进行筛选,可以过滤掉长度过短、过长的内容。
01.长度大于
点击注册地址
字段,高级过滤
-长度大于
-值输入3
可以看到,云南省长度大于3个字节的数据,已被标注删除线,启动采集后自动丢弃。
02.长度小于
点击法人代表
字段,高级过滤
-长度小于
-值输入3
可以看到,姓名长度大于3个字节的数据,已被标注删除线,启动采集后自动丢弃。