...">
瀏覽量:228次
Spider對網(wǎng)站抓取數(shù)量突增往往給站點帶來很大煩惱,紛紛找平臺想要BaiduspiderIP白名單,但實際上BaiduSpiderIP會隨時變化,所以并不敢公布出來,擔心站長設置不及時影響抓取效果。百度是怎么計算分配抓取頻次數(shù)量的呢?站點抓取頻次數(shù)量暴增的原因有哪些呢?
總體來說,Baiduspider會根據(jù)站點規(guī)模、歷史上網(wǎng)站每天新產(chǎn)出的鏈接數(shù)量、已抓取網(wǎng)頁的綜合質(zhì)量打分等等,來綜合計算抓取頻次數(shù)量,同時兼顧站長在抓取頻次工具里設置的、網(wǎng)站可承受的抓取值。
從目前追查過的抓取頻次數(shù)量突增的case中,原因可以分為以下幾種:
1、Baiduspider發(fā)現(xiàn)站內(nèi)JS代碼較多,調(diào)用大量資源針對JS代碼進行解析抓取
2、百度其他部門(如商業(yè)、圖片等)的spider在抓取,但頻次數(shù)量沒有控制好,sorry
3、已抓取的鏈接,打分不夠好,垃圾過多,導致spider重新抓取
4、站點被攻擊,有人仿冒百度爬蟲
如果站長排除了自身問題、仿冒問題,確認BaiduSpider抓取頻次數(shù)量過大的話,可以通過反饋中心來反饋,切記一定要提供詳細的抓取日志截圖。
百度不收錄頁面的原因分析
目前百度spider抓取新鏈接的途徑有兩個,一是主動出擊發(fā)現(xiàn)抓取,二就是從百度站長平臺的鏈接提交工具中獲取數(shù)據(jù),其中通過主動推送功能“收”上來的數(shù)據(jù)受百度spider的歡迎。對于站長來說,如果鏈接很長時間不被收錄,建議嘗試使用主動推送功能,尤其是新網(wǎng)站,主動推送首頁數(shù)據(jù),有利于內(nèi)頁數(shù)據(jù)的抓取。
那么同學們要問了,為什么我提交了數(shù)據(jù)還是遲遲在線上看不到展現(xiàn)呢?那涉及的因素可就多了,在spider抓取這個環(huán)節(jié),影響線上展現(xiàn)的因素有:
1、網(wǎng)站封禁:你別笑,真的有同學一邊封禁著百度蜘蛛,一邊向百度狂交數(shù)據(jù),結(jié)果當然是無法收錄。
2、質(zhì)量篩選:百度蜘蛛spider3.0對低質(zhì)內(nèi)容的識別上了一個新臺階,尤其是時效性內(nèi)容,從抓取這個環(huán)節(jié)就開始進行質(zhì)量評估篩選,過濾掉大量過度優(yōu)化等頁面,從內(nèi)部定期數(shù)據(jù)評估看,低質(zhì)網(wǎng)頁比之前下降62%。
3、抓取失?。鹤ト∈〉脑蚝芏?,有時你在辦公室訪問完全沒有問題,百度spider卻遇到麻煩,站點要隨時注意在不同時間地點保證網(wǎng)站的穩(wěn)定性。
4、配額限制:雖然我們正在逐步放開主動推送的抓取配額,但如果站點頁面數(shù)量突然爆發(fā)式增長,還是會影響到高質(zhì)鏈接的抓取收錄,所以站點在保證訪問穩(wěn)定外,也要關注網(wǎng)站安全,防止被黑注入。
[聲明]本網(wǎng)轉(zhuǎn)載網(wǎng)絡媒體稿件是為了傳播更多的信息,此類稿件不代表本網(wǎng)觀點,本網(wǎng)不承擔此類稿件侵權(quán)行為的連帶責任。故此,如果您發(fā)現(xiàn)本網(wǎng)站的內(nèi)容侵犯了您的版權(quán),請您的相關內(nèi)容發(fā)至此郵箱【779898168@qq.com】,我們在確認后,會立即刪除,保證您的版權(quán)。
官網(wǎng)優(yōu)化
整站優(yōu)化
渠道代理
400-655-5776