日常采集HTML标签时,一些多余标签嵌入在文本中,可以通过该功能,可以移除掉指定的HTML标签。
比如:去掉a、img、div、span、br、ol、ul、li 、em
标签等等。
下面以采集头条文章为例:
采集地址:https://www.toutiao.com/a6947999697642455588
我们需要清除里面所有的span
标签
具体操作如下:
-
Step1:文本转换HTML格式 选中整篇文章,右击字段
设置取值属性
-InnerHTML
-
Step2:清除HTML标签 右击字段
数据处理
-新建
-清除HTML标签
-选择span
标签
示例展示:
可以看出,上图标出的span
标签全部清除了,此功能常用于采集html格式。