多层列表采集
什么情况下用到多层列表
举个例子。
比如搜狗微信的首页,有热门关键词,某天我想根据这些关键词,采集对应的文章。 网址:http://weixin.sogou.com/
如下图:
点击关键词,到文章列表页
网址: http://weixin.sogou.com/weixin?type=2&ie=utf8&query=%E5%B7%B4%E5%9F%BA%E6%96%AF%E5%9D%A6%E5%AE%A2%E6%9C%BA%E5%9D%A0%E6%AF%81
如下图:
然后就可以根据列表的网址去采集对应的文章了。
我们来整理一下思路:
列表 | 地址 |
---|---|
第一层列表 | 关键词列表 |
第二层列表 | 文章列表 |
如何设置
我们先设置关键词列表的规则,如下图:
规则:
ol#topwords li
a
设置文章列表页的规则,如下图:
规则:
h3
a
得到了文章列表,就可以设置采集了。后面的设置就省略了。