数据处理

从哪添加数据处理?如下图;

替换

比如原文:

DXC采集器是最1493559963好的网页采集器

我们要把上面中文的数字去掉,因为数字是随机生成的,那么我们 使用 (*) 替代。如下图

规则如下:

是最(*)好的

替换成

是最好的

测试结果如下:

替换的地方会变成绿色,方便调试。你也可以切换到源码模式查看

也支持占位符。比如使用 {1} {2} 来替代:

规则如下:

是最{1}好的

替换成

中间是数字{1}

测试结果如下:

剔除

假如我们获取到的内容是下面这样:

<div class="content">这是内容</div> <div class="ad">这是广告</div>

我们要去掉这块。也就是广告的这块

<div class="ad">这是广告</div>

规则如下:

div.ad

效果如下:

被剔除的地方会用红色标记,方便调试

Copyright © DXC采集 2016 all right reserved,powered by Gitbook该文件修订时间: 2017-04-30 21:57:46

results matching ""

    No results matching ""