数据处理中,除了前面4节学习的4大常用功能,还有其它功能,下面我们来逐一介绍。
1.移除首尾空白符
以下图为例:移除标红字段间的空白符
选中该字段数据处理
-新建
-移除首尾空白符
确定后,可以看到该字段恢复正常状态
2.字符映射
对字段内容进行批量替换。
应用场景,将目标网站的分类、栏目映射为自己网站的分类。
比如把a,b,c
映射为1,2,3
, 输入格式一行一条,查找和替换值之间用英文逗号分隔。
格式参考:
3.字符转码
包含了常见的HTMLEncode
,HTMLDecode
,UrlEncode
,UrlDecode
,JSEncode
,JSDecode
, Base64
等转码形式。
-
ToDate
为新增类型,可以转换时间戳为指定时间格式,可以从内容中提取去日期,并且格式化。 -
HTMLToUBB
将HTML格式转换为UBB代码(一种论坛格式代码) -
HTMLToPlainText
将HTML代码转换为文本格式,并且保留格式(p、br、li等块标签替换为换行)
字符编码分类:
UTF-8
和GB2312
4.设置默认值
- 应用前提:需要添加字段,点击空白字段设置。
- 应用场景:常用在备注,或者采集不得重复上。
共有三种类型:当前时间
、随机字符
、字段
- 当前时间:
完整时间格式
、日期格式
、时间戳10
、时间戳13位
- 随机字符:
随机3位数据
、随机2位字母
、随机3至6位数字和字母
、随机字符xxx+3到6位数字和字母
- 字段:
title
根据需求,可以选择不同类型的表达方式。
5.日期提取
日常采集中,少部分字段,数字嵌入在文本内,这时就到此项功能一键提取日期,
附加功能:提取数字
和提取邮箱
以下图为例:
我们要提取购买来源
字段中,数字部分即单价。
选中字段数据处理
-新建
-日期提取
-提取数字
确定后,可以看到有单价数字部分已经提取出来了
6.HTTP请求
HTTP请求 可以构造一个HTTP请求(支持POST,可以引用其他字段值),并将请求的响应作为处理结果。
7.正文提取
通过正文提取算法,将页面中的正文和标题自动识别并提取,适用于一般的新闻、文章页面。 可以选择提取标题
或提取正文
,以及是否提取A标签、图片标签等。
- 提取标题
以下面为例:提取作者简介
字段中小说标题部分
选中该字段右击数据处理
-正文提取
-提取标题
通过地址栏可以看到该地址小说标题名称
确定后,即可看到标题与地址显示相同
提取正文
以上图片为例:提取作者简介
字段中正文部分
选中该字段右击数据处理
-正文提取
-提取正文
确定后,即可看正文部分已被提取出来
8.执行JaveScript
运行一段JavaScript代码,可以做一些复杂的数据处理,比如运算、字符串操作。可以引用其他字段值。
9.执行C#代码
通过 C# 代码对当前字段内容进行处理。 函数参考: string Run(string content)
,其中content参数为当前
字段的内容,返回值为处理后的结果,字符串类型。
比如 return content.Length.ToString()
,结果是当前字符串的长度。