导航:首页 > 数据处理 > 八爪鱼如何循环采集数据

八爪鱼如何循环采集数据

发布时间:2023-06-11 01:13:31

1. 八爪鱼采集器可以看到预览数据采集后是零

安装打开八爪鱼首页后,可以看到界面简洁,从上到下有搜索框、采集模板以及教程。采集时可以直接在搜索框输入目标网址,或者在左侧选择【新建】创建采集任务。

输入网址后进入采集界面,可以看到,初始页面分为①网页显示、②数据预览和③流程图三大区域。

其中点击版块①右上角的黄色图标,会打开【操作提示框】;

在版块②中可以对数据字段进行编辑、添加、删除等操作;

在版块③中,点击每个步骤框可以进入基础、高级选项设置页面,点击…按钮可对当前步骤进行删除等操作。此外,将鼠标移动到流程中的 ↓位置,会出现 + 按钮,点击可添加流程步骤。

那么什么是采集流程呢?它是指从特定网页上抓取数据的指令。由于每个网站的页面布局不同,因此采集流程不能通用,要根据具体需要自定义配置。

接下来我们以具体例子,了解如何采集列表数据、表格数据以及翻页采集详情页数据。

采集列表数据

步骤一:输入网址

在首页【输入框】中输入目标网址(以豆瓣读书为例),点击【开始采集】,八爪鱼会自动打开网页。

步骤二:建立采集流程-【循环提取数据】

观察可以发现,该网页上的图书信息以列表形式呈现,每个列表结构相同,都包含书名、出版信息、评分、评价数、图书简介等。那么如何让八爪鱼识别所有列表,并采集所需类型的数据呢?

在八爪鱼中,我们需要建立【循环提取数据】的流程:

第一,任意点击选中页面上的一个图书列表。选中后的列表会呈绿色框选状态,其中红色虚线框内的称为【子元素】。(需要注意的是,要确保待采集的所有内容都在绿色框内。)

第二,在弹出的黄色操作提示框中选择【选中子元素】。

此时当前列表数据的全部具体字段已被识别出来,并且八爪鱼还自动识别出了其他同类元素。

第三,在黄色操作提示框中,继续选择【选中全部】。

此时可以看到在下方的列表当中显示出了其他同类数据。

第四,在黄色操作提示框中,选择【采集数据】。此时,八爪鱼提取出列表中的字段。

步骤三:编辑字段

在下方的数据预览部分,对于列表中已提取出的所有字段,我们可以根据实际需求进行修改字段名称或删除等操作。

步骤四:启动采集

第一,以上设置完成后,依次点击右上方的【保存】和【采集】按钮,启动本地采集。

第二,采集完成后,选择合适的导出方式(Excel、CSV、HTML)导出数据。这里导出为Excel。

打开Excel文件,可以看到成功采集的数据~

采集表格数据

表格是一种很常见的网页样式,比如现在有一个新浪财经的网页 ,如何采集其中具体数据呢?

可以看到表格内每条股票信息各占一行,且一行股票中包含代码、名称、最新评级、评级机构、所属行业等多个字段信息。

那么如何将这些字段数据采集下来并以Excel形式保存呢?

接下来看具体操作:

步骤一:输入网址

在八爪鱼中采集数据的第一步基本都是输入目标网址,点击【开始采集】。

步骤二:建立采集流程

第一,选中页面上第一行第一个单元格,再点击操作提示框下方的TR,选中至一整行。

第二,在提示框中,选择【选中子元素】,这样第1个股票的具体字段会被选中。

同时可以看到,列表其他元素在红色线框内,说明八爪鱼还自动识别出了页面中其他股票列表中的同类【子元素】。

第三,在提示框中,选择【选中全部】。可以看到页面中所有股票列表中的子元素都呈绿框选中状态。

第四,在黄色操作提示框中,选择【采集数据】。

点击采集选项之后,可以看到数据预览区域显示出所有待采集字段的数据。

步骤三:编辑字段

接下来对列表中已提取出的所有字段,根据实际需求进行修改名称或删除等操作。

步骤4:启动采集

第一,以上设置完成后,依次点击右上方的【保存】和【采集】按钮,启动本地采集。

第二,采集完成后,选择以Excel格式导出,即可得到成功采集的数据。

采集详情页数据

在上面的操作中,我们采集的是主页面上的相关数据。但实际上,网页之间会有链接关系,如果我们对主页上某个条目感兴趣,会点击进入详情页进一步了解。那如何爬取多个同类详情页数据呢?

以网络学术对“知识交互作用”的检索页面为例,在八爪鱼首页输入目标网址后,开始建立采集流程。

建立采集流程—【循环-点击元素-提取数据】

第一,选中页面上第1个链接(会呈绿色实线框选状态)。

这时可以看到出现黄色操作提示框,提示我们发现了同类链接(红色虚线框选状态)。

第二,点击【选中全部】后,同类标题链接都被选中。

第三,在黄色操作提示框中,选择【循环点击每个链接】。(因为是按顺序依次采集每个详情页数据,所以需要循环点击链接。)

选择以后,会发现页面跳转到了第1个链接的详情页。

第四,按照需要提取数据。依次点击选中字段后,在黄色操作提示框选择【采集该元素文本】或其他。这里只提取文章标题、作者、摘要、关键词、被引量和年份。

2. 八爪鱼采集网页数据,请教,我想提取搜索结果里每一个链接页里面的内容

你要创建一个循环列表,这样八爪鱼采集器就可以自动帮你循环采集下一项。
还是无法解决的话可以加官方八爪鱼QQ群咨询官方客服。
106739425

3. 八爪鱼数据采集器的内置功能有哪些

八爪鱼数据采集器的内置功能比较多,一时半会难以说完,只能根据你 的实际使用需求来,能满足你的需求就够了,其他的功能对于你来说就都是多余的,但是你慢慢研究你会发现他有多强大,简直无所不能!处处给你惊喜。
下面我简单说一下:

1入门词汇介绍
1.1.1 积分

分是用来支付八爪鱼增值服务的一种方式,主要的用途包括:通过八爪鱼采集器采集并导出数据,在规则市场下载规则,在数据市场下载数据包,不同的账号类型在
使用上述增值服务时会有不同的收费策略,具体的收费策略和区别在下面版本说明里面有详细的解释。积分可以通过八爪鱼官方购买专业版或者旗舰版每月赠送,也
可以单独购买积分,还可以通过关注,签到,分享规则,关注微信,绑定社交账号等多种方式获得。
1.1.2规则
规则是八爪鱼用来配置程序按照人工操作流程记录的一条程序规则,当软件配置好的则的时候,则可以按照您所配置的规则进行数据的采集,代替人工步骤。
1.1.3云加速
八爪鱼系统是通过分布式集群部署的方式,每个集群由数量庞大的云节点组成,单个节点的采集能力相当于一台PC机的采集能力,通过八爪鱼后台的版本资源分配策略,分配到多少个云节点资源就享有几倍的加速,版本高的账户有更高的加加速倍数。
1.1.4云优先
如果是多用户共享一个云集群的资源,一个集群的规模大小是有上限的,如果同一时间提交云集群任务过多,造成资源拥堵,那么根据用户账号版本的不同,八爪鱼系统会进行默认排序,版本高的,优先级高,将有优先获得资源分配的权益。暂时未分配到资源的任务将进行排队轮候。
1.1.5URL
URL指正常网站的网址。
1.1.6单机采集
单机采集是指不占用云集群的资源,只能通过八爪鱼客户端所在的PC进行工作,在工作期间,需要电脑和软件都处于运行状态,电源中断或者网路中断都会导致数据采集任务的中断
1.1.7云采集

采集是指通过使用八爪鱼提供的服务器集群进行工作,该集群是7*24小时的工作状态,在客户端将任务设置完成并提交到云服务执行进行云采集之后,可以关闭
软件,关闭电脑进行脱机采集,真正的实现无人值守。除此之外云采集通过云服务器集群的分布式部署方式,多节点同时进行作业,可以提高采集效率,并且可以高
效的避开各种网站的IP封锁策略。
1.1.8定时采集
定时采集指的是用户在设定好八爪鱼的采集规则时,定时的启动 采集程序。
1.1.9URL循环
URL循环是指设定八爪鱼在制定的URL网址里面循环采集。
1.1.10自动导出
自动导出是指用户在设定好导出.
1.1.11Cookie
1)
Cookie诞生

当某个用户打开浏览器发出页面请求时,web服务器只是进行简单相应,然后就关闭与该用户的连接。所以当用户每发起一个打开网页请求到web服务器的时
候,无论是否是第一次打开同一个网页,web服务器都会把这个请求当作第一次来对待,那这样的缺陷可想而知,比如每次打开登录页面的时候都需要输入用户
名、密码。为了弥补这个缺陷,Cookie应运而生。

2) Cookie概述

Cookie就是服务器暂时存放在你计算机上的一笔资料,好让服务器来辨认你的计算机。当你在浏览网站的时候,web服务器会先送出小小资料放在你的计算
机上,cookie会帮你在网站上所打的文字(如用户名、密码)和其他一些操作都记录下来。当下次你再打开同一个网站。web服务器会先看看有没有它上次
留下的cookie资料,有的话就会依据cookie的内容来判断使用者,送出特定的网页内容给你。

3) Cookie工作原理
1.1.12XPATH
XPATH:是一种路径查询语言,简单的说就是利用一个路径表达式找到我们需要的数据位置。
XPATH专用于XML中沿着路径查找数据用的,但是八爪鱼采集器内部有一套针对HTML的XPATH引擎,使得直接用XPATH就能精准的查找定位网页里面的数据。
1.1.13HTML
1)
HTML概念

HTML:超文本标记语言,是用来描述网页的一种语言。主要用于控制数据的显示和外观。HTML文档也被称为网页。

2) HTML结构

完整的HTML文件至少包括<HTML>标签、<HEAD>标签、<TITLE>标签和<BODY>标
签,并且这些标签都是成对出现的,开头标签为<>,结束标签为</>,在这两个标签之间添加内容。通过这些标签中的相关属性可以
设置页面的背景色、背景图像等。
2八爪鱼基本流程教程
2.1 打开网页
该步骤根据设定的网址打开网页,一般为网页采集流程的第一个步骤,用来打开指定的网站或者网页。如果有多个类似的网址需要分别打开执行同样的采集流程,则应该放置在循环的内部,并作为第一个子步骤。
1) 网页地址
网址,一般可以从网页浏览器如IE等的地址栏中复制得到,如:http://www.skieer.com
2) 使用当前循环项
配合循环骤来使用,用以重复打开多个类似的网页,然后执行同样的一套流程,循环打开网页时,应为作为循环步骤的第一个子步骤。 如果勾选此项,则无需手动设置网页地址,网页地址会自动显示循环设定的网址列表的当前循环项。
3) 阻止弹出窗口
用以屏蔽网页弹窗广告,如果打开的网页偶尔会变成另外一个广告页面,则可以使用本选项阻止广告页面弹出。
4) 超时
在网页加载完成前等待的最大时间,如果网页打开缓慢,或者长时间无法打开,则流程最多等待超时指定的时间,之后无论网页是否加载完成,都直接执行下一步骤,应尽量避免设置过长的超时时间,因为这会影响采集速度。
5) 滚动到底部
个别网页在打开网页后并没有显示所有数据,需要滚动鼠标滚轮或者拖动页面滚动条到底部,才会加载没有显示的数据,使用此选项在页面加载完成后滚动到底部
6) 激活重试
如果网页没有按照成功打开预期页面,例如显示服务器错误(500),访问频率太快等,或者跳转到其他正常执行不应该出现的页面,可以使用本选项进行重试,但必须配合以下几个重试参数执行,请注意以下几种判断的情况任意一种出现都会导致重试。
7) 结果页面网址包含
如果出现的页面网址中总是出现某个特殊的字符串,例如网页找不到时一般会出现500.htm等,则使用此选项可以判断没有打开预期页面,需要重试
8) 结果页面文本包含
如果出现的页面文字中中总是出现某个特殊的字符串,例如"访问频率太快",则使用此选项可以判断没有打开预期页面,需要重试
9) 结果页面文本不包含
如果正常打开网页一定会出现某个特殊的字符串,但没有正常打开的时候一定不会出现该字符串,则可以据此判断判断没有打开预期页面,需要重试
10) 最大重试次数
为了避免无限制重复尝试,请示用本选项限制最大重复尝试的次数,如果重试到达最大允许的次数,任然没有成功,则流程将停止重试,继续执行下一步骤
11) 重试间隔
在两次重试之间等待的时间,一般情况下,当打开网页出错时,立即重试很有可能是同样的错误,适当等待则可能成功打开预期网页,但应该尽量避免设置过长的等待时间,因为这会影响采集速度
2.2点击元素
该步骤对网页上指定的元素执行鼠标左键单击动作,比如点击按钮,点击超链接等。
1) 使用当前循环项

合循环步骤来使用,用以重复点击循环中设置的多个元素,适用于循环单个固定元素,循环固定元素列表,循环可变元素列表。
如果勾选此项,则无需设置点击的元素,要点击的元素会自动显示循环设定的当前循环项,使用该选项时,应当作为循环步骤的子步骤,但不必是第一个子元素。
2) 新标签页中打开

果点击元素时希望在新的标签页中打开,而不是在当前页打开,请勾选此选项。
一般情况下,在需要循环打开一个页面上的多个超链接时,需要勾选此选项以便保留列表页面,以便点击列表页上的下一个超链接;但是如果是循环点击下一页时,
则不要勾选此选项,以在当前页面打开下一页。
3) 滚动到底部
个别网页在加载完成后并没有显示所有数据,需要滚动鼠标滚轮或者拖动页面滚动条到底部,才会加载没有显示的数据,使用此选项在页面加载完成后滚动到底部
4) 异步加载数据
异步加载也叫Ajax,是一种无需重新加载网页就能刷新局部数据的技术,因此流程不能检测到网页加载完成,就不能决定何时该执行下一个步骤, 使用此选项,流程会在等待设定的超时时间后默认数据已经加载完成,从而继续执行后续流程步骤。本选项需要配合异步加载超时使用.
5) 异步加载超时
等待异步加载完成的时间,在点击元素之后,流程会开始计时,超时时间到达后,执行下一个流程步骤。本选项需要配合异步加载使用,通常使用本选项时,不能勾选“新标签页中打开”
6) 激活重试
如果网页没有按照成功打开预期页面,例如显示服务器错误(500),访问频率太快等,或者跳转到其他正常执行不应该出现的页面,可以使用本选项进行重试,但必须配合以下几个重试参数执行,请注意以下几种判断的情况任意一种出现都会导致重试。
7) 结果页面网址包含
如果出现的页面网址中总是出现某个特殊的字符串,例如网页找不到时一般会出现500.htm等,则使用此选项可以判断没有打开预期页面,需要重试
8) 结果页面文本包含
如果出现的页面文字中中总是出现某个特殊的字符串,例如"访问频率太快",则使用此选项可以判断没有打开预期页面,需要重试
9) 结果页面文本不包含
如果正常打开网页一定会出现某个特殊的字符串,但没有正常打开的时候一定不会出现该字符串,则可以据此判断判断没有打开预期页面,需要重试
10) 最大重试次数
为了避免无限制重复尝试,请示用本选项限制最大重复尝试的次数,如果重试到达最大允许的次数,任然没有成功,则流程将停止重试,继续执行下一步骤
11) 重试间隔
在两次重试之间等待的时间,一般情况下,当打开网页出错时,立即重试很有可能是同样的错误,适当等待则可能成功打开预期网页,但应该尽量避免设置过长的等待时间,因为这会影响采集速度
2.3输入文本
本步骤在输入框中输入指定的文本,例如输入搜索关键词,输入账号等。
将设定的文本输入到网页的某个输入框中,如使用搜索引擎时输入关键字。
2.4提取数据
本步骤根据提取数据模板的配置,从网页中提取数据,同时还可配置为提取网址,网页标题,或者生成一些数据如当前时间等。
1) 抓取模板
本步骤根据提取数据模板的配置,从网页中提取数据,同时还可配置为提取网址,网页标题,或者生成一些数据如当前时间等。
2) 名字
给抓取的数据字段取个别名,如新闻标题,新闻正文
3) 提取到的数据
从网页上提取到的数据,将会在本列显示所抓取到的示例
4) 描述
对本数据字段的一些描述信息
5) 使用当前循环项

合循环步骤来使用,用以重复的从循环中设置的多个元素中提取数据,适用于循环单个固定元素,循环固定元素列表,循环可变元素列表。
如果勾选此项,会从循环所设置的元素中根据抓取规则提取出示例数据,使用该选项时,提取数据步骤应当作为循环步骤的子步骤,但不必是第一个子元素。
2.5循环
1) 本步骤用来重复执行一系列步骤,根据配置不同,支持多种模式。
循环固定单个元素,例如循环点击每一页中的下一页按钮;
2) 循环固定列表,例如循环处理一个页面中指定的多个元素;
3) 循环可变列表,当需要循环处理多个页面,但是每个页面上要处理的元素数量不固定时使用;
4) 循环网址列表,主要用来循环打开一批指定网址的网页,然后执行同样的处理步骤。
1) 循环注意事项
1) 元素在IFRAME里
如果循环中设置的元素在IFRAME里,请勾选此项,并在后面的IFAMEXPah中填写IFRAME的XPATH
2) IFAMEXPah
元素所在IFRAME的路径,只有当勾选'元素在IFRAME里'时这个设置才会生效。
3) 固定的一个元素
循环的对一个元素进行特定操作,如循环点击下页,下翻下拉列等,当翻到最后一页或下拉列表已到最后一项时,会自动结束当前循环。
4) 固定的元素列表
逐个的对列表中的元素进行特定操作,如循环点击、从中提取数据、将鼠标悬停在元素上,当所有元素循环完毕时,会自动结束当前循环。
5) 动态元素列表
当元素列表不是固定的,可指定一个动态路径(多个元素都符合此路径,即可以根据此路径定位到多个元素),系统会根据指定路径先找到一个元素列表,然后执行跟‘固定的元素列表’一样的操作。
6) URL列表
配合打开网页操作作用,指定一个URL列表,确保循环里面的打开网页操作的使用当前循环项标识已勾选,以逐个的打开URL列表中的连接。
7) 循环执行次数等于
在执行到指定次数时退出循环
2.6翻下拉列表

步骤用于切换下拉列表
1) 从option顺序/到option顺序
默认为空,代表从下拉列表第一个顺序切换,直到最后一个,但有时需要跳过第一个选项,从第二个或者中间某个位置开始切换下拉列表,
使用这两个选项可以控制切换的起始和结束顺序,例如,假设下拉选项有5个,需要从第2个顺序切换到第4个,则“从option顺序”设置为2,“到
option顺序”设置为4。
2) 跳过值/到值
默认为空,表示按照设定,顺序切换下拉列表,但如果切换中需要跳过某个下拉项,则使用此设置,可以控制跳过的范围,
例如,假设下拉列表有5个选项,值分别是10、11、12、13、14,如果需要跳过12,则设置“跳过值”为12,如果需要跳过12、13,则设置“跳
过值”为12,“到值”设置为“13”。
3) 使用当前循环项
配合循环步骤来使用,用以重复的循环中的指定的下拉列表切换到下一个选项。
4) 异步加载数据
异步加载也叫Ajax,是一种无需重新加载网页就能刷新局部数据的技术,因此流程不能检测到网页加载完成,就不能决定何时该执行下一个步骤,
使用此选项,流程会在等待设定的超时时间后默认数据已经加载完成,从而继续执行后续流程步骤。本选项需要配合异步加载超时使用
5) 异步加载超时
等待异步加载完成的时间,在点击元素之后,流程会开始计时,超时时间到达后,执行下一个流程步骤。本选项需要配合异步加载使用。
6) 激活重试
如果网页没有按照成功打开预期页面,例如显示服务器错误(500),访问频率太快等,或者跳转到其他正常执行不应该出现的页面,可以使用本选项进行重试,
但必须配合以下几个重试参数执行,请注意以下几种判断的情况任意一种出现都会导致重试。
7) 结果页面网址包含
如果出现的页面网址中总是出现某个特殊的字符串,例如网页找不到时一般会出现500.htm等,则使用此选项可以判断没有打开预期页面,需要重试
8) 结果页面文本包含
如果出现的页面文字中中总是出现某个特殊的字符串,例如"访问频率太快",则使用此选项可以判断没有打开预期页面,需要重试
9) 结果页面文本不包含
如果正常打开网页一定会出现某个特殊的字符串,但没有正常打开的时候一定不会出现该字符串,则可以据此判断判断没有打开预期页面,需要重试
10) 最大重试次数
为了避免无限制重复尝试,请示用本选项限制最大重复尝试的次数,如果重试到达最大允许的次数,任然没有成功,则流程将停止重试,继续执行下一步骤
11) 重试间隔
在两次重试之间等待的时间,一般情况下,当打开网页出错时,立即重试很有可能是同样的错误,适当等待则可能成功打开预期网页,但应该尽量避免设置过长的等
待时间,因为这会影响采集速度
2.7条件分支
本步骤会从左到右选择第一个符合条件的分支,并执行该分支
1) 总是
不设置任何判定条件,该分支总是符合执行条件
2) 当页面中包含文本
当页面中包含指定文本是,该分支符合执行条件
3) 当页面中包含元素
当页面中包含指定元素时,该分支符合执行条件,配合元素XPATH使用
4) 元素XPATH
判定条件元素的XPATH路径
5) 在IFRAME里
如果判定条件元素在IFRAME里,请勾选此项,并在后面的IFAMEXPah中填写IFRAME的XPATH
6) IFAMEXPah
元素所在IFRAME的路径,只有当勾选'元素在IFRAME里'时这个设置才会生效。
2.8鼠标悬停
本步骤用于将鼠标悬停在指定元素上。
1) 使用当前循环项
配合循环步骤来使用,用以重复的将将鼠标悬停循环中指定的元素上,然后执行下面的流程。
2) Ajax加载数据
Ajax
也叫异步加载,是一种无需重新加载网页就能刷新局部数据的技术,因此流程不能检测到网页加载完成,就不能决定何时该执行下一个步骤。
很多网页会在鼠标悬停在某些元素上时异步加一些数据,并在页面上显示。使用此选项,流程会在等待设定的超时时间后默认数据已经加载完成,从而继续执行后续
流程步骤。本选 项需要配合异步加载超时使用
3) 异步加载超时
等待异步加载完成的时间,在点击元素之后,流程会开始计时,超时时间到达后,执行下一个流程步骤。本选项需要配合异步加载使用。
2.9如何下载采集规则

了避免配置采集规则的重复工作,八爪鱼采集器内置了规则市场,由用户分享配置好的采集规则,互帮互助。
使用规则市场下载规则的好处显而易见,可以不用花费时间研究和配置采集流程。很多网站的采集规则都可以在规则市场中搜索到,下载运行即可采集。
下载规则需要使用八爪鱼采集器,具体操作步骤:打开八爪鱼采集器->采集规则->规则市场。
3.0 如何使用规则
1)
使用从规则市场下载的规则
一般从规则市场下载的规则是.otd为后缀的规则文件,4.*以后的版本中会自动导入下载的规则文件。以前的版本中需要手动导入下载的规则文件。
手动导入方式:八爪鱼规则文件(.OTD)直接双击即可打开导入向导,或者打开八爪鱼采集器, 快速开始 ->
导入规则,然后按照向导提示导入规则。 但有时候会下载到.zip为后缀的压缩文件,压缩文件解压后包含多个.otd规则文件,需要先解压,然后导入。
2) 使用接收到的规则
使用邮件或者其他即时通讯软件接受到的规则,可以参考上一节说明,手动导入。

4. 我要用八爪鱼采集软件采集亚马逊的数据,求操作步骤

具体的操作步骤如下:

1、双击打开一米亚马逊数据采集软件,会弹出一个窗口

2、登录准备好的账号和密码

3、把需要采集的亚马逊商品评价地址输入进去

4、点击开始采集,然后把采集好的数据另存为到本地

5. 八爪鱼采集器该怎么用

八爪鱼采集器使用方法:

1、打开八爪鱼采集器的客户端,登陆软件之后新建一个任务,打开你要采集的网站地址。这里我自己示范的原创设计手稿的坦吵采集。

2、进入到设计工作流程环节,在界面浏览器那输入你要采集的网址,点击打开,你就能看到你要采集的网站界面,由于这个网址存在多页内容需要采集,我们再设置采集规则的时候慧侍,可以先建立翻页循环,先把鼠标选择页面上的【下一页】按钮,在弹出的任务对话框,选择高级选项中的【循环点击下一页】,软件会自动建立一个翻页循环。

3、建好翻页循环好,就是采集当前页上的内让碧侍容,我要采集图片的URL,就选中一个图片,然后单击,软件会自动弹出对话框,先建立一个元素循环列表。当前页面的所有元素都被抓取后,循环列表则建立完成。

4、设置要抓取的内容,选择元素循环列表中的任意一个元素,在浏览器内找到该元素对应的图片,点击后弹出对话框,选择【抓取这个元素的图片地址】为字段1,同时我为了方便识别,还抓取了字段2为图片标题名称,设置原理同图片地址。

5、检查一下,翻页循环框应该将产品循环框嵌套在内,表示,先抓取完当前一整页的图片URL后再翻页。

6、设置执行计划后,就可以开始采集了,单击采集的话,直接点击【完成】步骤下的【检查任务】,开始运行任务。采集完毕后可以直接下载成EXCEL的文件。

7、将URL转换为图片,这里用八爪鱼图片转换工具,将EXCEL导入之后,就可以自动等待系统将图片下载下来了!

6. 八爪鱼采集器怎么采集数据


打开网页,本步骤根据设定的网址打开网页,一般为网页采集流程的第一个步骤,用来打开指定的网站或者网页。如果有多个类似的网址需要分别打开执行同样的采集流程点击元素,本步骤对网页上指定的元素执行洞扰鼠标左键单击动作,比如点击按钮、点击翻页,点击跳转到其他页面等等。输入文本,本步骤在输入框中输入指定的文本,例如输入搜索关键词,输入账号等。将设定的文本输入到网页的某个输入框中物颤没,如使用搜索引擎时输入关键字。
八爪鱼采集器(软着登字00547832号,2014SR149170)是深圳视界信息技术有限罩纳公司研发的一款业界领先的网页采集软件。

7. 如何使用八爪鱼采集金融界基金数据

1、创建金融界基金数据采集任务
2、创建文本循环
3、分页表格信息采集
4、基金数据采集及导出
1.创建金融界基金数据采集任务1)进入主界面,选择“自定义采集”2)将要上述采集的网址URL复制粘贴到网站输入框中,点击“保存网址”
2.创建文本循环1)鼠标滑动到页底,然后选中“下一页”,提示框中选择“循环点击下一页”2)由于页面使用了ajax加载技术,需要对点击元素及翻页步骤设置ajax延时加载(ajax判断方法:打开流程图,找到翻页循环框,手动执行翻页,看网站有没有进行加载)在右侧的高级选项框中,勾选Ajax加载数据,选择合适的超时时间,一般设置3秒;最后点击确定。
3.分页表格信息采集l选中需要采集的字段信息,创建采集列表l编辑采集字段名称移动鼠标选中表格里任意一个空格信息,右键点击,如图所示,框中数据会被选中,变成绿色,点击右侧提示中点击“TR”选中数据当前一行的数据会被全部选中,点击“选中子元素右侧操作提示框中,查看提取的字段,可将不需要字段删除,点击“选中全部”点击“采集以下数据”
4.基金数据采集及导出采集完成后,会跳出提示,选择导出数据,选择合适的导出方式,将采集好的数据导出,这里我们选择excel作为导出为格式,一份完好的金融界基金数据就导出好了

阅读全文

与八爪鱼如何循环采集数据相关的资料

热点内容
大数据推广怎么做 浏览:72
重庆南坪五金机电市场有哪些 浏览:291
凌海高新技术怎么样 浏览:958
西安旧家俱市场哪里有 浏览:27
路由器后台怎么限制代理 浏览:623
淘宝市场营销环境怎么样 浏览:761
南京有哪些信息技术的公司 浏览:900
大数据运维和开发工资多少 浏览:942
什么情况下代理人丧失代理权 浏览:406
罗门菜市场在什么路 浏览:645
当贝市场怎么打开画面 浏览:696
食品代理一年能挣多少钱 浏览:560
减肥外用产品有哪些 浏览:118
苏州高新技术产业园在哪里 浏览:730
上海灭火器箱市场前景如何 浏览:424
厂家代理拿货怎么样 浏览:295
ib如何交易cfd 浏览:446
编写一个新闻程序需要多久 浏览:626
市场调研意义是什么 浏览:896
怎么代理华润漆 浏览:167