网址设置

起始地址设置

起始地址是采集的入口,什么是起始地址,举个例子:

比如你要采集新浪的新闻,地址 http://roll.mil.news.sina.com.cn/col/zgjq/index_1.shtml

你要采集前50页。

第1页的地址:http://roll.mil.news.sina.com.cn/col/zgjq/index_1.shtml
第2页的地址:http://roll.mil.news.sina.com.cn/col/zgjq/index_2.shtml
……
第50页的地址:http://roll.mil.news.sina.com.cn/col/zgjq/index_50.shtml

知道规律了吗?变化的地方只是数字而已。而数字代表页码,页码我们用符号 (*) 代替。那么我们要采集前50页的新闻可以这样设置: 在地址里面输入:

http://roll.mil.news.sina.com.cn/col/zgjq/index_(*).shtml


设置从1到50,步长为1,所谓步长,就是每次增长1的意思。 如图:

同理,如果要采集第20页到30页,只要设置从20到30,步长1就行了

列表设置

上面我们设置了采集第几页的文章,我们还需要设置获取每一页的列表链接才能根据这些链接去采集对应的文章,那么如何设置呢?

使用DOM方式或者字符串方式都可以获取链接,如图:

Copyright © DXC采集 2016 all right reserved,powered by Gitbook该文件修订时间: 2016-12-08 15:42:49

results matching ""

    No results matching ""