導航:首頁 > 數據處理 > 八爪魚如何循環採集數據

八爪魚如何循環採集數據

發布時間:2023-06-11 01:13:31

1. 八爪魚採集器可以看到預覽數據採集後是零

安裝打開八爪魚首頁後,可以看到界面簡潔,從上到下有搜索框、採集模板以及教程。採集時可以直接在搜索框輸入目標網址,或者在左側選擇【新建】創建採集任務。

輸入網址後進入採集界面,可以看到,初始頁面分為①網頁顯示、②數據預覽和③流程圖三大區域。

其中點擊版塊①右上角的黃色圖標,會打開【操作提示框】;

在版塊②中可以對數據欄位進行編輯、添加、刪除等操作;

在版塊③中,點擊每個步驟框可以進入基礎、高級選項設置頁面,點擊…按鈕可對當前步驟進行刪除等操作。此外,將滑鼠移動到流程中的 ↓位置,會出現 + 按鈕,點擊可添加流程步驟。

那麼什麼是採集流程呢?它是指從特定網頁上抓取數據的指令。由於每個網站的頁面布局不同,因此採集流程不能通用,要根據具體需要自定義配置。

接下來我們以具體例子,了解如何採集列表數據、表格數據以及翻頁採集詳情頁數據。

採集列表數據

步驟一:輸入網址

在首頁【輸入框】中輸入目標網址(以豆瓣讀書為例),點擊【開始採集】,八爪魚會自動打開網頁。

步驟二:建立採集流程-【循環提取數據】

觀察可以發現,該網頁上的圖書信息以列表形式呈現,每個列表結構相同,都包含書名、出版信息、評分、評價數、圖書簡介等。那麼如何讓八爪魚識別所有列表,並採集所需類型的數據呢?

在八爪魚中,我們需要建立【循環提取數據】的流程:

第一,任意點擊選中頁面上的一個圖書列表。選中後的列表會呈綠色框選狀態,其中紅色虛線框內的稱為【子元素】。(需要注意的是,要確保待採集的所有內容都在綠色框內。)

第二,在彈出的黃色操作提示框中選擇【選中子元素】。

此時當前列表數據的全部具體欄位已被識別出來,並且八爪魚還自動識別出了其他同類元素。

第三,在黃色操作提示框中,繼續選擇【選中全部】。

此時可以看到在下方的列表當中顯示出了其他同類數據。

第四,在黃色操作提示框中,選擇【採集數據】。此時,八爪魚提取出列表中的欄位。

步驟三:編輯欄位

在下方的數據預覽部分,對於列表中已提取出的所有欄位,我們可以根據實際需求進行修改欄位名稱或刪除等操作。

步驟四:啟動採集

第一,以上設置完成後,依次點擊右上方的【保存】和【採集】按鈕,啟動本地採集。

第二,採集完成後,選擇合適的導出方式(Excel、CSV、HTML)導出數據。這里導出為Excel。

打開Excel文件,可以看到成功採集的數據~

採集表格數據

表格是一種很常見的網頁樣式,比如現在有一個新浪財經的網頁 ,如何採集其中具體數據呢?

可以看到表格內每條股票信息各佔一行,且一行股票中包含代碼、名稱、最新評級、評級機構、所屬行業等多個欄位信息。

那麼如何將這些欄位數據採集下來並以Excel形式保存呢?

接下來看具體操作:

步驟一:輸入網址

在八爪魚中採集數據的第一步基本都是輸入目標網址,點擊【開始採集】。

步驟二:建立採集流程

第一,選中頁面上第一行第一個單元格,再點擊操作提示框下方的TR,選中至一整行。

第二,在提示框中,選擇【選中子元素】,這樣第1個股票的具體欄位會被選中。

同時可以看到,列表其他元素在紅色線框內,說明八爪魚還自動識別出了頁面中其他股票列表中的同類【子元素】。

第三,在提示框中,選擇【選中全部】。可以看到頁面中所有股票列表中的子元素都呈綠框選中狀態。

第四,在黃色操作提示框中,選擇【採集數據】。

點擊採集選項之後,可以看到數據預覽區域顯示出所有待採集欄位的數據。

步驟三:編輯欄位

接下來對列表中已提取出的所有欄位,根據實際需求進行修改名稱或刪除等操作。

步驟4:啟動採集

第一,以上設置完成後,依次點擊右上方的【保存】和【採集】按鈕,啟動本地採集。

第二,採集完成後,選擇以Excel格式導出,即可得到成功採集的數據。

採集詳情頁數據

在上面的操作中,我們採集的是主頁面上的相關數據。但實際上,網頁之間會有鏈接關系,如果我們對主頁上某個條目感興趣,會點擊進入詳情頁進一步了解。那如何爬取多個同類詳情頁數據呢?

以網路學術對「知識交互作用」的檢索頁面為例,在八爪魚首頁輸入目標網址後,開始建立採集流程。

建立採集流程—【循環-點擊元素-提取數據】

第一,選中頁面上第1個鏈接(會呈綠色實線框選狀態)。

這時可以看到出現黃色操作提示框,提示我們發現了同類鏈接(紅色虛線框選狀態)。

第二,點擊【選中全部】後,同類標題鏈接都被選中。

第三,在黃色操作提示框中,選擇【循環點擊每個鏈接】。(因為是按順序依次採集每個詳情頁數據,所以需要循環點擊鏈接。)

選擇以後,會發現頁面跳轉到了第1個鏈接的詳情頁。

第四,按照需要提取數據。依次點擊選中欄位後,在黃色操作提示框選擇【採集該元素文本】或其他。這里只提取文章標題、作者、摘要、關鍵詞、被引量和年份。

2. 八爪魚採集網頁數據,請教,我想提取搜索結果里每一個鏈接頁裡面的內容

你要創建一個循環列表,這樣八爪魚採集器就可以自動幫你循環採集下一項。
還是無法解決的話可以加官方八爪魚QQ群咨詢官方客服。
106739425

3. 八爪魚數據採集器的內置功能有哪些

八爪魚數據採集器的內置功能比較多,一時半會難以說完,只能根據你 的實際使用需求來,能滿足你的需求就夠了,其他的功能對於你來說就都是多餘的,但是你慢慢研究你會發現他有多強大,簡直無所不能!處處給你驚喜。
下面我簡單說一下:

1入門詞彙介紹
1.1.1 積分

分是用來支付八爪魚增值服務的一種方式,主要的用途包括:通過八爪魚採集器採集並導出數據,在規則市場下載規則,在數據市場下載數據包,不同的賬號類型在
使用上述增值服務時會有不同的收費策略,具體的收費策略和區別在下面版本說明裡面有詳細的解釋。積分可以通過八爪魚官方購買專業版或者旗艦版每月贈送,也
可以單獨購買積分,還可以通過關注,簽到,分享規則,關注微信,綁定社交賬號等多種方式獲得。
1.1.2規則
規則是八爪魚用來配置程序按照人工操作流程記錄的一條程序規則,當軟體配置好的則的時候,則可以按照您所配置的規則進行數據的採集,代替人工步驟。
1.1.3雲加速
八爪魚系統是通過分布式集群部署的方式,每個集群由數量龐大的雲節點組成,單個節點的採集能力相當於一台PC機的採集能力,通過八爪魚後台的版本資源分配策略,分配到多少個雲節點資源就享有幾倍的加速,版本高的賬戶有更高的加加速倍數。
1.1.4雲優先
如果是多用戶共享一個雲集群的資源,一個集群的規模大小是有上限的,如果同一時間提交雲集群任務過多,造成資源擁堵,那麼根據用戶賬號版本的不同,八爪魚系統會進行默認排序,版本高的,優先順序高,將有優先獲得資源分配的權益。暫時未分配到資源的任務將進行排隊輪候。
1.1.5URL
URL指正常網站的網址。
1.1.6單機採集
單機採集是指不佔用雲集群的資源,只能通過八爪魚客戶端所在的PC進行工作,在工作期間,需要電腦和軟體都處於運行狀態,電源中斷或者網路中斷都會導致數據採集任務的中斷
1.1.7雲採集

採集是指通過使用八爪魚提供的伺服器集群進行工作,該集群是7*24小時的工作狀態,在客戶端將任務設置完成並提交到雲服務執行進行雲採集之後,可以關閉
軟體,關閉電腦進行離線採集,真正的實現無人值守。除此之外雲採集通過雲伺服器集群的分布式部署方式,多節點同時進行作業,可以提高採集效率,並且可以高
效的避開各種網站的IP封鎖策略。
1.1.8定時採集
定時採集指的是用戶在設定好八爪魚的採集規則時,定時的啟動 採集程序。
1.1.9URL循環
URL循環是指設定八爪魚在制定的URL網址裡面循環採集。
1.1.10自動導出
自動導出是指用戶在設定好導出.
1.1.11Cookie
1)
Cookie誕生

當某個用戶打開瀏覽器發出頁面請求時,web伺服器只是進行簡單相應,然後就關閉與該用戶的連接。所以當用戶每發起一個打開網頁請求到web伺服器的時
候,無論是否是第一次打開同一個網頁,web伺服器都會把這個請求當作第一次來對待,那這樣的缺陷可想而知,比如每次打開登錄頁面的時候都需要輸入用戶
名、密碼。為了彌補這個缺陷,Cookie應運而生。

2) Cookie概述

Cookie就是伺服器暫時存放在你計算機上的一筆資料,好讓伺服器來辨認你的計算機。當你在瀏覽網站的時候,web伺服器會先送出小小資料放在你的計算
機上,cookie會幫你在網站上所打的文字(如用戶名、密碼)和其他一些操作都記錄下來。當下次你再打開同一個網站。web伺服器會先看看有沒有它上次
留下的cookie資料,有的話就會依據cookie的內容來判斷使用者,送出特定的網頁內容給你。

3) Cookie工作原理
1.1.12XPATH
XPATH:是一種路徑查詢語言,簡單的說就是利用一個路徑表達式找到我們需要的數據位置。
XPATH專用於XML中沿著路徑查找數據用的,但是八爪魚採集器內部有一套針對HTML的XPATH引擎,使得直接用XPATH就能精準的查找定位網頁裡面的數據。
1.1.13HTML
1)
HTML概念

HTML:超文本標記語言,是用來描述網頁的一種語言。主要用於控制數據的顯示和外觀。HTML文檔也被稱為網頁。

2) HTML結構

完整的HTML文件至少包括<HTML>標簽、<HEAD>標簽、<TITLE>標簽和<BODY>標
簽,並且這些標簽都是成對出現的,開頭標簽為<>,結束標簽為</>,在這兩個標簽之間添加內容。通過這些標簽中的相關屬性可以
設置頁面的背景色、背景圖像等。
2八爪魚基本流程教程
2.1 打開網頁
該步驟根據設定的網址打開網頁,一般為網頁採集流程的第一個步驟,用來打開指定的網站或者網頁。如果有多個類似的網址需要分別打開執行同樣的採集流程,則應該放置在循環的內部,並作為第一個子步驟。
1) 網頁地址
網址,一般可以從網頁瀏覽器如IE等的地址欄中復製得到,如:http://www.skieer.com
2) 使用當前循環項
配合循環驟來使用,用以重復打開多個類似的網頁,然後執行同樣的一套流程,循環打開網頁時,應為作為循環步驟的第一個子步驟。 如果勾選此項,則無需手動設置網頁地址,網頁地址會自動顯示循環設定的網址列表的當前循環項。
3) 阻止彈出窗口
用以屏蔽網頁彈窗廣告,如果打開的網頁偶爾會變成另外一個廣告頁面,則可以使用本選項阻止廣告頁面彈出。
4) 超時
在網頁載入完成前等待的最大時間,如果網頁打開緩慢,或者長時間無法打開,則流程最多等待超時指定的時間,之後無論網頁是否載入完成,都直接執行下一步驟,應盡量避免設置過長的超時時間,因為這會影響採集速度。
5) 滾動到底部
個別網頁在打開網頁後並沒有顯示所有數據,需要滾動滑鼠滾輪或者拖動頁面滾動條到底部,才會載入沒有顯示的數據,使用此選項在頁面載入完成後滾動到底部
6) 激活重試
如果網頁沒有按照成功打開預期頁面,例如顯示伺服器錯誤(500),訪問頻率太快等,或者跳轉到其他正常執行不應該出現的頁面,可以使用本選項進行重試,但必須配合以下幾個重試參數執行,請注意以下幾種判斷的情況任意一種出現都會導致重試。
7) 結果頁面網址包含
如果出現的頁面網址中總是出現某個特殊的字元串,例如網頁找不到時一般會出現500.htm等,則使用此選項可以判斷沒有打開預期頁面,需要重試
8) 結果頁面文本包含
如果出現的頁面文字中中總是出現某個特殊的字元串,例如"訪問頻率太快",則使用此選項可以判斷沒有打開預期頁面,需要重試
9) 結果頁面文本不包含
如果正常打開網頁一定會出現某個特殊的字元串,但沒有正常打開的時候一定不會出現該字元串,則可以據此判斷判斷沒有打開預期頁面,需要重試
10) 最大重試次數
為了避免無限制重復嘗試,請示用本選項限制最大重復嘗試的次數,如果重試到達最大允許的次數,任然沒有成功,則流程將停止重試,繼續執行下一步驟
11) 重試間隔
在兩次重試之間等待的時間,一般情況下,當打開網頁出錯時,立即重試很有可能是同樣的錯誤,適當等待則可能成功打開預期網頁,但應該盡量避免設置過長的等待時間,因為這會影響採集速度
2.2點擊元素
該步驟對網頁上指定的元素執行滑鼠左鍵單擊動作,比如點擊按鈕,點擊超鏈接等。
1) 使用當前循環項

合循環步驟來使用,用以重復點擊循環中設置的多個元素,適用於循環單個固定元素,循環固定元素列表,循環可變元素列表。
如果勾選此項,則無需設置點擊的元素,要點擊的元素會自動顯示循環設定的當前循環項,使用該選項時,應當作為循環步驟的子步驟,但不必是第一個子元素。
2) 新標簽頁中打開

果點擊元素時希望在新的標簽頁中打開,而不是在當前頁打開,請勾選此選項。
一般情況下,在需要循環打開一個頁面上的多個超鏈接時,需要勾選此選項以便保留列表頁面,以便點擊列表頁上的下一個超鏈接;但是如果是循環點擊下一頁時,
則不要勾選此選項,以在當前頁面打開下一頁。
3) 滾動到底部
個別網頁在載入完成後並沒有顯示所有數據,需要滾動滑鼠滾輪或者拖動頁面滾動條到底部,才會載入沒有顯示的數據,使用此選項在頁面載入完成後滾動到底部
4) 非同步載入數據
非同步載入也叫Ajax,是一種無需重新載入網頁就能刷新局部數據的技術,因此流程不能檢測到網頁載入完成,就不能決定何時該執行下一個步驟, 使用此選項,流程會在等待設定的超時時間後默認數據已經載入完成,從而繼續執行後續流程步驟。本選項需要配合非同步載入超時使用.
5) 非同步載入超時
等待非同步載入完成的時間,在點擊元素之後,流程會開始計時,超時時間到達後,執行下一個流程步驟。本選項需要配合非同步載入使用,通常使用本選項時,不能勾選「新標簽頁中打開」
6) 激活重試
如果網頁沒有按照成功打開預期頁面,例如顯示伺服器錯誤(500),訪問頻率太快等,或者跳轉到其他正常執行不應該出現的頁面,可以使用本選項進行重試,但必須配合以下幾個重試參數執行,請注意以下幾種判斷的情況任意一種出現都會導致重試。
7) 結果頁面網址包含
如果出現的頁面網址中總是出現某個特殊的字元串,例如網頁找不到時一般會出現500.htm等,則使用此選項可以判斷沒有打開預期頁面,需要重試
8) 結果頁面文本包含
如果出現的頁面文字中中總是出現某個特殊的字元串,例如"訪問頻率太快",則使用此選項可以判斷沒有打開預期頁面,需要重試
9) 結果頁面文本不包含
如果正常打開網頁一定會出現某個特殊的字元串,但沒有正常打開的時候一定不會出現該字元串,則可以據此判斷判斷沒有打開預期頁面,需要重試
10) 最大重試次數
為了避免無限制重復嘗試,請示用本選項限制最大重復嘗試的次數,如果重試到達最大允許的次數,任然沒有成功,則流程將停止重試,繼續執行下一步驟
11) 重試間隔
在兩次重試之間等待的時間,一般情況下,當打開網頁出錯時,立即重試很有可能是同樣的錯誤,適當等待則可能成功打開預期網頁,但應該盡量避免設置過長的等待時間,因為這會影響採集速度
2.3輸入文本
本步驟在輸入框中輸入指定的文本,例如輸入搜索關鍵詞,輸入賬號等。
將設定的文本輸入到網頁的某個輸入框中,如使用搜索引擎時輸入關鍵字。
2.4提取數據
本步驟根據提取數據模板的配置,從網頁中提取數據,同時還可配置為提取網址,網頁標題,或者生成一些數據如當前時間等。
1) 抓取模板
本步驟根據提取數據模板的配置,從網頁中提取數據,同時還可配置為提取網址,網頁標題,或者生成一些數據如當前時間等。
2) 名字
給抓取的數據欄位取個別名,如新聞標題,新聞正文
3) 提取到的數據
從網頁上提取到的數據,將會在本列顯示所抓取到的示例
4) 描述
對本數據欄位的一些描述信息
5) 使用當前循環項

合循環步驟來使用,用以重復的從循環中設置的多個元素中提取數據,適用於循環單個固定元素,循環固定元素列表,循環可變元素列表。
如果勾選此項,會從循環所設置的元素中根據抓取規則提取出示例數據,使用該選項時,提取數據步驟應當作為循環步驟的子步驟,但不必是第一個子元素。
2.5循環
1) 本步驟用來重復執行一系列步驟,根據配置不同,支持多種模式。
循環固定單個元素,例如循環點擊每一頁中的下一頁按鈕;
2) 循環固定列表,例如循環處理一個頁面中指定的多個元素;
3) 循環可變列表,當需要循環處理多個頁面,但是每個頁面上要處理的元素數量不固定時使用;
4) 循環網址列表,主要用來循環打開一批指定網址的網頁,然後執行同樣的處理步驟。
1) 循環注意事項
1) 元素在IFRAME里
如果循環中設置的元素在IFRAME里,請勾選此項,並在後面的IFAMEXPah中填寫IFRAME的XPATH
2) IFAMEXPah
元素所在IFRAME的路徑,只有當勾選'元素在IFRAME里'時這個設置才會生效。
3) 固定的一個元素
循環的對一個元素進行特定操作,如循環點擊下頁,下翻下拉列等,當翻到最後一頁或下拉列表已到最後一項時,會自動結束當前循環。
4) 固定的元素列表
逐個的對列表中的元素進行特定操作,如循環點擊、從中提取數據、將滑鼠懸停在元素上,當所有元素循環完畢時,會自動結束當前循環。
5) 動態元素列表
當元素列表不是固定的,可指定一個動態路徑(多個元素都符合此路徑,即可以根據此路徑定位到多個元素),系統會根據指定路徑先找到一個元素列表,然後執行跟『固定的元素列表』一樣的操作。
6) URL列表
配合打開網頁操作作用,指定一個URL列表,確保循環裡面的打開網頁操作的使用當前循環項標識已勾選,以逐個的打開URL列表中的連接。
7) 循環執行次數等於
在執行到指定次數時退出循環
2.6翻下拉列表

步驟用於切換下拉列表
1) 從option順序/到option順序
默認為空,代表從下拉列表第一個順序切換,直到最後一個,但有時需要跳過第一個選項,從第二個或者中間某個位置開始切換下拉列表,
使用這兩個選項可以控制切換的起始和結束順序,例如,假設下拉選項有5個,需要從第2個順序切換到第4個,則「從option順序」設置為2,「到
option順序」設置為4。
2) 跳過值/到值
默認為空,表示按照設定,順序切換下拉列表,但如果切換中需要跳過某個下拉項,則使用此設置,可以控制跳過的范圍,
例如,假設下拉列表有5個選項,值分別是10、11、12、13、14,如果需要跳過12,則設置「跳過值」為12,如果需要跳過12、13,則設置「跳
過值」為12,「到值」設置為「13」。
3) 使用當前循環項
配合循環步驟來使用,用以重復的循環中的指定的下拉列表切換到下一個選項。
4) 非同步載入數據
非同步載入也叫Ajax,是一種無需重新載入網頁就能刷新局部數據的技術,因此流程不能檢測到網頁載入完成,就不能決定何時該執行下一個步驟,
使用此選項,流程會在等待設定的超時時間後默認數據已經載入完成,從而繼續執行後續流程步驟。本選項需要配合非同步載入超時使用
5) 非同步載入超時
等待非同步載入完成的時間,在點擊元素之後,流程會開始計時,超時時間到達後,執行下一個流程步驟。本選項需要配合非同步載入使用。
6) 激活重試
如果網頁沒有按照成功打開預期頁面,例如顯示伺服器錯誤(500),訪問頻率太快等,或者跳轉到其他正常執行不應該出現的頁面,可以使用本選項進行重試,
但必須配合以下幾個重試參數執行,請注意以下幾種判斷的情況任意一種出現都會導致重試。
7) 結果頁面網址包含
如果出現的頁面網址中總是出現某個特殊的字元串,例如網頁找不到時一般會出現500.htm等,則使用此選項可以判斷沒有打開預期頁面,需要重試
8) 結果頁面文本包含
如果出現的頁面文字中中總是出現某個特殊的字元串,例如"訪問頻率太快",則使用此選項可以判斷沒有打開預期頁面,需要重試
9) 結果頁面文本不包含
如果正常打開網頁一定會出現某個特殊的字元串,但沒有正常打開的時候一定不會出現該字元串,則可以據此判斷判斷沒有打開預期頁面,需要重試
10) 最大重試次數
為了避免無限制重復嘗試,請示用本選項限制最大重復嘗試的次數,如果重試到達最大允許的次數,任然沒有成功,則流程將停止重試,繼續執行下一步驟
11) 重試間隔
在兩次重試之間等待的時間,一般情況下,當打開網頁出錯時,立即重試很有可能是同樣的錯誤,適當等待則可能成功打開預期網頁,但應該盡量避免設置過長的等
待時間,因為這會影響採集速度
2.7條件分支
本步驟會從左到右選擇第一個符合條件的分支,並執行該分支
1) 總是
不設置任何判定條件,該分支總是符合執行條件
2) 當頁面中包含文本
當頁面中包含指定文本是,該分支符合執行條件
3) 當頁面中包含元素
當頁面中包含指定元素時,該分支符合執行條件,配合元素XPATH使用
4) 元素XPATH
判定條件元素的XPATH路徑
5) 在IFRAME里
如果判定條件元素在IFRAME里,請勾選此項,並在後面的IFAMEXPah中填寫IFRAME的XPATH
6) IFAMEXPah
元素所在IFRAME的路徑,只有當勾選'元素在IFRAME里'時這個設置才會生效。
2.8滑鼠懸停
本步驟用於將滑鼠懸停在指定元素上。
1) 使用當前循環項
配合循環步驟來使用,用以重復的將將滑鼠懸停循環中指定的元素上,然後執行下面的流程。
2) Ajax載入數據
Ajax
也叫非同步載入,是一種無需重新載入網頁就能刷新局部數據的技術,因此流程不能檢測到網頁載入完成,就不能決定何時該執行下一個步驟。
很多網頁會在滑鼠懸停在某些元素上時非同步加一些數據,並在頁面上顯示。使用此選項,流程會在等待設定的超時時間後默認數據已經載入完成,從而繼續執行後續
流程步驟。本選 項需要配合非同步載入超時使用
3) 非同步載入超時
等待非同步載入完成的時間,在點擊元素之後,流程會開始計時,超時時間到達後,執行下一個流程步驟。本選項需要配合非同步載入使用。
2.9如何下載採集規則

了避免配置採集規則的重復工作,八爪魚採集器內置了規則市場,由用戶分享配置好的採集規則,互幫互助。
使用規則市場下載規則的好處顯而易見,可以不用花費時間研究和配置採集流程。很多網站的採集規則都可以在規則市場中搜索到,下載運行即可採集。
下載規則需要使用八爪魚採集器,具體操作步驟:打開八爪魚採集器->採集規則->規則市場。
3.0 如何使用規則
1)
使用從規則市場下載的規則
一般從規則市場下載的規則是.otd為後綴的規則文件,4.*以後的版本中會自動導入下載的規則文件。以前的版本中需要手動導入下載的規則文件。
手動導入方式:八爪魚規則文件(.OTD)直接雙擊即可打開導入向導,或者打開八爪魚採集器, 快速開始 ->
導入規則,然後按照向導提示導入規則。 但有時候會下載到.zip為後綴的壓縮文件,壓縮文件解壓後包含多個.otd規則文件,需要先解壓,然後導入。
2) 使用接收到的規則
使用郵件或者其他即時通訊軟體接受到的規則,可以參考上一節說明,手動導入。

4. 我要用八爪魚採集軟體採集亞馬遜的數據,求操作步驟

具體的操作步驟如下:

1、雙擊打開一米亞馬遜數據採集軟體,會彈出一個窗口

2、登錄准備好的賬號和密碼

3、把需要採集的亞馬遜商品評價地址輸入進去

4、點擊開始採集,然後把採集好的數據另存為到本地

5. 八爪魚採集器該怎麼用

八爪魚採集器使用方法:

1、打開八爪魚採集器的客戶端,登陸軟體之後新建一個任務,打開你要採集的網站地址。這里我自己示範的原創設計手稿的坦吵採集。

2、進入到設計工作流程環節,在界面瀏覽器那輸入你要採集的網址,點擊打開,你就能看到你要採集的網站界面,由於這個網址存在多頁內容需要採集,我們再設置採集規則的時候慧侍,可以先建立翻頁循環,先把滑鼠選擇頁面上的【下一頁】按鈕,在彈出的任務對話框,選擇高級選項中的【循環點擊下一頁】,軟體會自動建立一個翻頁循環。

3、建好翻頁循環好,就是採集當前頁上的內讓碧侍容,我要採集圖片的URL,就選中一個圖片,然後單擊,軟體會自動彈出對話框,先建立一個元素循環列表。當前頁面的所有元素都被抓取後,循環列表則建立完成。

4、設置要抓取的內容,選擇元素循環列表中的任意一個元素,在瀏覽器內找到該元素對應的圖片,點擊後彈出對話框,選擇【抓取這個元素的圖片地址】為欄位1,同時我為了方便識別,還抓取了欄位2為圖片標題名稱,設置原理同圖片地址。

5、檢查一下,翻頁循環框應該將產品循環框嵌套在內,表示,先抓取完當前一整頁的圖片URL後再翻頁。

6、設置執行計劃後,就可以開始採集了,單擊採集的話,直接點擊【完成】步驟下的【檢查任務】,開始運行任務。採集完畢後可以直接下載成EXCEL的文件。

7、將URL轉換為圖片,這里用八爪魚圖片轉換工具,將EXCEL導入之後,就可以自動等待系統將圖片下載下來了!

6. 八爪魚採集器怎麼採集數據


打開網頁,本步驟根據設定的網址打開網頁,一般為網頁採集流程的第一個步驟,用來打開指定的網站或者網頁。如果有多個類似的網址需要分別打開執行同樣的採集流程點擊元素,本步驟對網頁上指定的元素執行洞擾滑鼠左鍵單擊動作,比如點擊按鈕、點擊翻頁,點擊跳轉到其他頁面等等。輸入文本,本步驟在輸入框中輸入指定的文本,例如輸入搜索關鍵詞,輸入賬號等。將設定的文本輸入到網頁的某個輸入框中物顫沒,如使用搜索引擎時輸入關鍵字。
八爪魚採集器(軟著登字00547832號,2014SR149170)是深圳視界信息技術有限罩納公司研發的一款業界領先的網頁採集軟體。

7. 如何使用八爪魚採集金融界基金數據

1、創建金融界基金數據採集任務
2、創建文本循環
3、分頁表格信息採集
4、基金數據採集及導出
1.創建金融界基金數據採集任務1)進入主界面,選擇「自定義採集」2)將要上述採集的網址URL復制粘貼到網站輸入框中,點擊「保存網址」
2.創建文本循環1)滑鼠滑動到頁底,然後選中「下一頁」,提示框中選擇「循環點擊下一頁」2)由於頁面使用了ajax載入技術,需要對點擊元素及翻頁步驟設置ajax延時載入(ajax判斷方法:打開流程圖,找到翻頁循環框,手動執行翻頁,看網站有沒有進行載入)在右側的高級選項框中,勾選Ajax載入數據,選擇合適的超時時間,一般設置3秒;最後點擊確定。
3.分頁表格信息採集l選中需要採集的欄位信息,創建採集列表l編輯採集欄位名稱移動滑鼠選中表格里任意一個空格信息,右鍵點擊,如圖所示,框中數據會被選中,變成綠色,點擊右側提示中點擊「TR」選中數據當前一行的數據會被全部選中,點擊「選中子元素右側操作提示框中,查看提取的欄位,可將不需要欄位刪除,點擊「選中全部」點擊「採集以下數據」
4.基金數據採集及導出採集完成後,會跳出提示,選擇導出數據,選擇合適的導出方式,將採集好的數據導出,這里我們選擇excel作為導出為格式,一份完好的金融界基金數據就導出好了

閱讀全文

與八爪魚如何循環採集數據相關的資料

熱點內容
怎麼查看圖表用的數據 瀏覽:299
程序員怎麼翻譯代碼 瀏覽:416
現代信息技術是怎麼發展的 瀏覽:165
騰訊有個什麼可以採集數據 瀏覽:445
交易網站有哪些游戲 瀏覽:586
如何發布信息審核 瀏覽:211
大數據運營商如何申請 瀏覽:602
非小號環球幣什麼時候能交易 瀏覽:447
閩侯縣建材市場有哪些 瀏覽:930
上交所什麼時候交易 瀏覽:124
那哪個市場 瀏覽:532
文邦物業技術防範在哪裡 瀏覽:387
交易所壁壘怎麼破 瀏覽:361
什麼是交易標的 瀏覽:180
程序員如何走過來 瀏覽:892
福州市區最大菜市場在哪裡 瀏覽:512
直接交易古玩注意什麼 瀏覽:758
三明毛尖綠茶代理要什麼條件 瀏覽:797
七九數據怎麼查詢 瀏覽:671
如何鑒定技術工人 瀏覽:139