从列表获取字段

什么情况下会用到这个功能呢,举个例子,比如你想采集 优酷的视频 你想获取视频封面,封面存在于列表里面,这时候你就需要设置 从列表获取字段

这里有个地方需要解释:

  • 列表循环区域

图中,红框里面就是列表循环区域,封面和链接都存在这个区域里面,这个区域不断的循环重复。
为什么要这样获取呢?如果其中某个区域里面没有封面,那么链接和封面完全无法对应了。所以我们必须先取一个整体的区域,再从里面提取需要的东西
下面就写规则来获取:
如图所示,我们先确定区域: DOM写法如下:

div.v

得到循环区域了,我们再从循环区域里面获取列表链接,规则如下:

div.v-meta-title
a

结果如图:

如何在字段里面获取封面呢? 我们需要在 数据来源里面选择从列表页 设置获取规则

div.v-thumb img->src

  • img->src的意思就是获取img标签的src属性,因为图片路径存在于src属性里面
  • 还需要设置 字段类型为附件 ,采集器会把这个字段获取到的地址当做图片去下载

如图:


测试结果如下:

Copyright © DXC采集 2016 all right reserved,powered by Gitbook该文件修订时间: 2017-04-30 12:34:01

results matching ""

    No results matching ""