多页关联
什么情况下用到多页关联?
以小米官方论坛为例子,地址:http://bbs.xiaomi.cn/t-13263708
比如你想采集这个地址的文章标题、内容、用户的签名
文章的标题、内容,都好抓取,因为都在文章页面里面。但是用户签名呢,这个特殊了,他不在文章页面里面。
那怎么获取呢?
点击用户头像,如图:
跳转到这个页面:http://bbs.xiaomi.cn/u-detail-68206966 这个就是用户的资料页。
总结一下,从左到右,获取的路径依次为:
页面1 | 页面2 | 获取的字段 |
---|---|---|
详细页 | 标题、内容 | |
详细页 | 用户资料页 | 用户签名 |
用户签名多了一个页面才能获取到,这个时候就需要用到多页关联功能。
如何设置?
如图:
规则分两行, 只要获取链接的地方,规则都分两行。 这是整个采集器统一的规定。
得到了用户资料页,怎么从字段里面获取整个用户签名呢?
如上图所示。数据来源 选择从多页关联里面获取,就出现一个“用户资料”给我们选择,就是我们上面所设置的多页关联的名字。
可以下载规则体验一下:
多页关联--示例规则.dxc