多页关联

什么情况下用到多页关联?

以小米官方论坛为例子,地址:http://bbs.xiaomi.cn/t-13263708
比如你想采集这个地址的文章标题、内容、用户的签名
文章的标题、内容,都好抓取,因为都在文章页面里面。但是用户签名呢,这个特殊了,他不在文章页面里面。
那怎么获取呢?
点击用户头像,如图:

跳转到这个页面:http://bbs.xiaomi.cn/u-detail-68206966 这个就是用户的资料页。

总结一下,从左到右,获取的路径依次为:

页面1 页面2 获取的字段
详细页 标题、内容
详细页 用户资料页 用户签名

用户签名多了一个页面才能获取到,这个时候就需要用到多页关联功能。

如何设置?

如图:
规则分两行, 只要获取链接的地方,规则都分两行。 这是整个采集器统一的规定。

得到了用户资料页,怎么从字段里面获取整个用户签名呢?
如上图所示。数据来源 选择从多页关联里面获取,就出现一个“用户资料”给我们选择,就是我们上面所设置的多页关联的名字。

下面来检验成果:

可以下载规则体验一下: 多页关联--示例规则.dxc

Copyright © DXC采集 2016 all right reserved,powered by Gitbook该文件修订时间: 2017-01-22 21:48:44

results matching ""

    No results matching ""