本文給大家演示如何采集分頁列表詳情頁面里的信息。目的是讓大家了解怎么創建循環翻頁并能正常采集網頁詳情的數據信息。

?

本文教程里講到的示例網站地址為:http://www.skieer.com/guide/demo/moviespage1.html 例如這個網址里面有很多電影,我們需要點擊每一部電影進去采集電影的劇情、上映時間等字段。


步驟1? 登陸八爪魚7.0采集器→點擊新建任務→自定義采集,進入到任務配置頁面: 然后輸入網址→保存網址,系統會進入到流程設計頁面并自動打開前面輸入的網址。


1?

我們在八爪魚里需要循環點擊下圖瀏覽器中電影名稱,再提取詳情頁面中的數據信息,所以我們需要先做一個翻頁循環再做一個循環點擊電影名稱提取數據的列表。


步驟2? 我們先做一個循環翻頁流程,這個步驟就會在采集的時候模擬人工點擊翻頁,鼠標點擊在下圖瀏覽器頁面中的“下一頁”按鈕,在彈出的對話框中選擇“循環點擊下一頁”;這樣翻頁循環就做好了。


2

?

下面對電影名稱創建循環點擊


我們要把每個電影的鏈接打開,進入詳情頁面,然后在采集詳情里面的數據。結合步驟2中建立的翻頁循環,我們就能自動點擊下一頁翻頁,對每一頁的電影標題列表都能逐個打開進入詳情頁,從而完成對所有電影詳情數據的點擊并最終達到提取所有數據的效果。


步驟3? 鼠標點擊下圖中第一個電影標題“教父:第二部”鏈接,這時候和右邊的操作提示框中就會出現一些選項,我們選擇“選中全部”選項,然后再選擇“循環點擊每個鏈接”選項即可,這樣循環點擊電影標題到詳情頁面的步驟就做好了。


小貼士? 在7.0以前的八爪魚版本中,會彈出一個選項框讓用戶選擇,7.0中為了讓用戶在操作的時候還能看到網頁,這個提示框就挪到了右邊,并且簡化了操作過程。而且在點擊第一個電影標題“教父:第二部”鏈接之后,瀏覽器中這個鏈接就被選中了,在網頁中用一個綠色框標注出來,同時八爪魚的智能算法也自動檢測到了還有其他幾個相似元素,也就是本例中另外兩個電影標題鏈接,我們選擇“選中全部”選項,就可以自動選中全部標題鏈接,這時候八爪魚提示我們已經選中了這一組元素,然后我們要逐個點擊鏈接進去詳情頁采集,所以接下來對選擇的“循環點擊每個鏈接”選項,這時候八爪魚就會自動模擬人的操作,執行剛才設定的“循環點擊每個鏈接”的動作,以剛選中的電影標題列表的第一個為樣本頁面,點擊詳情鏈接并跳轉到詳情頁面中去了,后續步驟中我們就可以提取數據了。


?

接下來就是最終提取數據的步驟了,結合前面的步驟,最終完成對所有電影詳情數據的采集


步驟4 ?鼠標點擊頁面中要提取的電影標題字段,這里標題字段就被選中了并通過紅色框表示,然后在彈出的提示框中選擇“采集該元素的文本”表明要采集的是頁面中的文本數據,


然后同樣的方式選擇點擊瀏覽器中的其他字段,再選擇“采集該元素的文本”


4

?

步驟5? 這樣提取完畢之后我們可以點一下流程按鈕,然后修改字段名稱。這里的字段名稱相當于表頭,便于采集時區分每個字段類別。 在下面界面中修改字段名稱,修改完成之后,點擊“確定”保存


5??

步驟6 點擊“保存并啟動”,再在彈出的對話框中選擇“啟動本地采集”


系統會在本地電腦上開啟一個采集任務并采集數據,任務采集完畢之后會彈出一個采集結束的提示, 接下來選擇導出數據,這里以選擇導出excel2007為例,然后點擊確定. 之后選擇文件存放路徑,再點保存即可。這樣就獲取了我們最終需要的數據了。


6

?

下面是數據示例

?

圖片7