...">
瀏覽量:143次
八爪魚采集器怎樣操作,八爪魚軟件的自定義采集工作方式下
有了上次使用模板抓取數(shù)據(jù)的經(jīng)驗,相信你應(yīng)該能熟練使用octopus collector。也許有些朋友很好奇。只能通過軟件預(yù)設(shè)的模板抓取數(shù)據(jù)嗎?當(dāng)然不是。Octopus collector還有自定義收集功能,供用戶收集自己想要的數(shù)據(jù)。與預(yù)置模塊相比,定制更加靈活。雖然比預(yù)置的模板復(fù)雜,但爬取的數(shù)據(jù)更符合你的意愿。這篇文章是為你整理的。
步驟一
首先像往常一樣,啟動并登錄你的octopus collector,進入主界面,點擊【新建】下的【新建任務(wù)組】,新建一個組。
單擊“確定”創(chuàng)建新組。
步驟二
創(chuàng)建組后,點擊【新建】下的自定義任務(wù),得到這樣的界面。
我們可以尋找鏈接到我們想要抓取的網(wǎng)頁。在這里,邊肖去JD.COM搜索手機,當(dāng)搜索結(jié)果出來時,我們可以復(fù)制鏈接。
將復(fù)制的鏈接粘貼到URL列,將任務(wù)組更改為之前創(chuàng)建的組,然后單擊[保存設(shè)置]。
步驟三
保存后會跳轉(zhuǎn)到抓取界面,軟件會自動開始識別網(wǎng)頁中要抓取的部分。根據(jù)個人機器的網(wǎng)速不同,對應(yīng)的等待時間也不同。
鑒定后可以看到數(shù)據(jù)很多,其中有很多無用的數(shù)據(jù)需要剔除。
將光標(biāo)移到表格字段上,會出現(xiàn)兩個圖標(biāo)。鋼筆圖標(biāo)是更改字段名稱,垃圾桶是刪除這個字段。
我們可以隨意刪除和更改字段名,這里邊肖只保留上圖中的字段。
步驟四
設(shè)置完字段后,我們將注意力轉(zhuǎn)向上圖中的小方框。第一個不是可選的,我們直接忽略。
收集前面的滾動頁面加載更多的數(shù)據(jù):因為現(xiàn)在很多網(wǎng)站都采用動態(tài)頁面,有些內(nèi)容在加載的時候是不會顯示的,只有在我們下拉的時候才會逐漸顯示,而這個功能就是為了防止這種情況的發(fā)生。
翻頁并收集多頁數(shù)據(jù):設(shè)置為抓取多個頁面,取消選中則只抓取當(dāng)前頁面。
點擊列表中的XXX,收集下一級頁面:該功能允許我們抓取子頁面中的內(nèi)容。
這里就不抓取了,只勾選前兩項,然后點擊【生成采集設(shè)置】。
點擊生成后,您將開始保存或查看。點擊此處保存并開始收集。
步驟五
到了這個界面之后,我們可以看到一個詳細(xì)的流程,里面的循環(huán)列表就是這個頁面上爬取的內(nèi)容。
我們單擊外部循環(huán)的設(shè)置按鈕。
退出循環(huán)設(shè)置,并檢查循環(huán)執(zhí)行的次數(shù)。在這里,我們只抓取3頁。
開始收集。
收集,點擊導(dǎo)出。
另外,如果你抓取的頁面中有重復(fù)數(shù)據(jù),軟件會直接提示,根據(jù)你自己的情況選擇保留或刪除。
導(dǎo)出模式
保存導(dǎo)出文件的位置
保存完成
圖像數(shù)據(jù)
以上是邊肖帶來的章魚采集器自定義模塊教程。熟練使用后,相信朋友們可以收集到更多的數(shù)據(jù)。使用octopus collector收集數(shù)據(jù)后,可以根據(jù)收集到的數(shù)據(jù)分析并完成各種任務(wù)。希望這篇文章能幫到你。
[聲明]本網(wǎng)轉(zhuǎn)載網(wǎng)絡(luò)媒體稿件是為了傳播更多的信息,此類稿件不代表本網(wǎng)觀點,本網(wǎng)不承擔(dān)此類稿件侵權(quán)行為的連帶責(zé)任。故此,如果您發(fā)現(xiàn)本網(wǎng)站的內(nèi)容侵犯了您的版權(quán),請您的相關(guān)內(nèi)容發(fā)至此郵箱【779898168@qq.com】,我們在確認(rèn)后,會立即刪除,保證您的版權(quán)。
官網(wǎng)優(yōu)化
整站優(yōu)化
渠道代理
400-655-5776