新聞動态
其實Baidu spider在抓取過程中面對(duì)的(de)是一個(gè)超級複雜(zá)的(de)網絡環境.為(wèi)了使系統可以抓取到盡可能多的(de)有(yǒu)價值的(de)資源,并保持系統及實際環境中頁面的(de)一緻性,同時(shí)不給網站體(tǐ)驗造成壓力,須設計(jì)多種複雜(zá)的(de)抓取策略。
下(xià)面作(zuò)一簡單介紹:
(1)抓取友(yǒu)好(hǎo)性
互聯網資源龐大的(de)數量級,要求抓取系統盡可能地(dì)高(gāo)效利用帶寬,在有(yǒu)限的(de)硬件(jiàn)和(hé)帶寬資源下(xià)盡可能多地(dì)抓取到有(yǒu)價值的(de)資源。這(zhè)就造成另一個(gè)問(wèn)題:耗費(fèi)被抓網站的(de)帶寬造成訪問(wèn)壓力,如果程度過大,将直接影響被抓網站的(de)正常用戶訪問(wèn)行為(wèi)。因此,在抓取過程中就要進行一定的(de)抓取壓力控制,達到既不影響網站的(de)正常用戶訪問(wèn)又(yòu)能盡量多地(dì)抓取到有(yǒu)價值資源的(de)目的(de)。
通(tōng)常,最基本的(de)是基于IP的(de)壓力控制。因為(wèi)如果基于域名,可能存在一個(gè)域名對(duì)多個(gè)IP(很(hěn)多大網站)或多個(gè)域名對(duì)應同一個(gè)IP(小(xiǎo)網站共享IP)的(de)問(wèn)題。實際中往往根據P及域名的(de)多種條件(jiàn)進行壓力調配控制。同時(shí),站長(cháng)平台也推出了壓力反饋工(gōng)具,站長(cháng)可以人(rén)工(gōng)調配對(duì)自(zì)己網站的(de)抓取壓力,這(zhè)時(shí)!百度spider将優先按照(zhào)站長(cháng)的(de)要求進行抓取壓力控制。
對(duì)同一站點的(de)抓取速度控制一般分為(wèi)兩類:
其一,一段時(shí)間(jiān)內(nèi)的(de)抓取頻(pín)率;
其二,段時(shí)間(jiān)內(nèi)的(de)抓取流量。
同一站點不同的(de)時(shí)間(jiān)抓取速度也不同。例如,夜晚抓取的(de)可能就會快一些,也視(shì)具體(tǐ)站點類型而定,主要思想是錯(cuò)開(kāi)正常用戶訪問(wèn)高(gāo)峰,不斷調整。對(duì)于不同站點,也需要不同的(de)抓取速度。
(2)常用抓取返回碼示意
下(xià)面簡單介紹幾種百度支持的(de)返回碼。
①最常見的(de)404代表“NOT FOUND”,認為(wèi)網頁已經失效,通(tōng)常将在庫中删除,同時(shí)短期內(nèi)如果spider再次發現(xiàn)這(zhè)條URL.也不會抓取。
②503代表“Service unavailabl ,認為(wèi)網頁臨時(shí)不可訪問(wèn),通(tōng)常網站臨時(shí)關閉,帶寬有(yǒu)限等會産生(shēng)這(zhè)種情況。對(duì)于網頁返回503百度spider不會把這(zhè)條url直接删除,同時(shí)短期內(nèi)将會反複訪問(wèn)幾次,如果網頁已恢複,則正常抓取;如果繼續503狀态碼,那(nà)麽這(zhè)條URL仍會被認為(wèi)是失效鏈接,從(cóng)庫中删除。
③403代表Forbidden,認為(wèi)網頁目前禁止訪問(wèn)。如果是新URL, spider暫時(shí)不抓取,短期內(nèi)同樣會反複訪問(wèn)幾次;如果是已收錄UHL,不會直接删除,短期內(nèi)同樣反複訪認為(wèi)是失效鏈接,從(cóng)庫中删除。問(wèn)幾次。如果網頁正常訪問(wèn),則正常抓取;如果仍然禁止訪問(wèn),那(nà)麽這(zhè)條URL也會被。
④301代表“Moved”認為(wèi)網頁重定向至新URL當遇到站點遷移 域名更換、站點改版的(de)情況時(shí),推薦使用301返回碼,同田時(shí)使用站長(cháng)平台網站改版工(gōng)具,以減少改版對(duì)網站流量造成的(de)損失。
(3)多種URL重定向的(de)識别
互聯網中的(de)一部分網頁因為(wèi)各種各樣的(de)原因存在URL重定向狀态,為(wèi)了對(duì)這(zhè)部分資源正常抓取,要求 spider對(duì)URL重定向進行識别判斷,同時(shí)防止作(zuò)弊行為(wèi)。重定向可分為(wèi)三類:htp30x重定向、 meta refresh重定向和(hé)js重定向。另外(wài),百度也支持Canonical标簽,在效果上(shàng)也可以認為(wèi)是一種間(jiān)接的(de)重定向。
(4)抓取優先級調配
由于互聯網資源規模巨大以及變化(huà)迅速,對(duì)于搜索引擎來(lái)說(shuō),全部抓取到并合理(lǐ)地(dì)更新,保持一緻性幾乎是不可能的(de)事(shì)情,因此要求抓取系統設計(jì)一套合理(lǐ)的(de)抓取優先級調配策略,主要包括深度優先遍曆策略、寬度優先遍曆策略、pr優先策略、反鏈策略、社會化(huà)分享指導策略等。每個(gè)策略各有(yǒu)優劣,在實際情況中往往是多種策略結合使用,以達到最優的(de)抓取效果。
(5)重複URL的(de)過濾
spider在抓取過程中需要判斷一個(gè)頁面是否已經抓取過了,如果還(hái)沒有(yǒu)抓取,再進行抓取網頁的(de)行為(wèi),并放(fàng)在已抓取網址集合中。判斷是否已經抓取其中涉及最核心的(de)是快速查找并對(duì)比,同時(shí)于涉及URL歸一化(huà)識别。例如,一個(gè)URL中包含大量無效參數,而實際是同一個(gè)頁面,這(zhè)将視(shì)為(wèi)同一個(gè)URL來(lái)對(duì)待。
(6)暗(àn)網數據的(de)獲取
互聯網中存在着大量的(de)搜索引擎暫時(shí)無法抓取到的(de)數據,被稱為(wèi)暗(àn)網數據。一方面,很(hěn)多網站的(de)大量數據存在于網絡數據庫中,spider難以采用抓取網頁的(de)方式獲得完整內(nèi)容;另一方面,由于網絡環境、網站本身(shēn)不符合規範、孤島等問(wèn)題,也會造成搜索引擎無法抓取。目前,對(duì)于暗(àn)網數據的(de)獲取,主要思路(lù)仍然是通(tōng)過開(kāi)放(fàng)平台采用數據提交的(de)方式來(lái)解決,如“百度站長(cháng)平台”“百度開(kāi)放(fàng)平台”等。
(7)抓取反作(zuò)弊
spider在抓取過程中往往會遇到所謂抓取黑(hēi)洞,或者面臨大量低(dī)質量頁面的(de)因擾這(zhè)就要求抓取系統中同樣需要設計(jì)一套完善的(de)抓取反作(zuò)弊系統。例如,分析URL特征分析頁面大小(xiǎo)及內(nèi)容、分析站點規模對(duì)應抓取規模等。Spider抓取系統是搜索引擎數據來(lái)源的(de)重要保證,這(zhè)對(duì)于網站制作(zuò)、網站建設、網站設計(jì)者來(lái)說(shuō)就是機(jī)遇和(hé)突破口,具體(tǐ)的(de)做法就千差萬别了。
上(shàng)一篇: Baidu spider抓取頻(pín)次原則
下(xià)一篇: SEO的(de)優勢與劣勢