多层列表采集

什么情况下用到多层列表

举个例子。

比如搜狗微信的首页,有热门关键词,某天我想根据这些关键词,采集对应的文章。 网址:http://weixin.sogou.com/
如下图:

点击关键词,到文章列表页
网址: http://weixin.sogou.com/weixin?type=2&ie=utf8&query=%E5%B7%B4%E5%9F%BA%E6%96%AF%E5%9D%A6%E5%AE%A2%E6%9C%BA%E5%9D%A0%E6%AF%81
如下图:

然后就可以根据列表的网址去采集对应的文章了。

我们来整理一下思路:

列表 地址
第一层列表 关键词列表
第二层列表 文章列表

如何设置

我们先设置关键词列表的规则,如下图:

规则:

ol#topwords li
a

设置文章列表页的规则,如下图:

规则:

h3
a

得到了文章列表,就可以设置采集了。后面的设置就省略了。

Copyright © DXC采集 2016 all right reserved,powered by Gitbook该文件修订时间: 2017-04-30 13:08:59

results matching ""

    No results matching ""