搜索引擎抓取策略類型-漳州網站建設_漳州做網站_漳州網絡公司

新聞動态News information

您的(de)位置：首頁>新聞動态

新聞動态

News information

服務熱線：0596-2916087

傳真：0596-2916087

公司地(dì)址：漳州市(shì)龍文(wén)區(qū)漳華東路(lù)327号中森陽光(guāng)美(měi)地(dì)12幢2單元203室
漳州市(shì)芗城(chéng)區(qū)四季榮成廣場(chǎng)3幢1013室

郵政編碼：363000

搜索引擎抓取策略類型

發表于2018/2/5

其實Baidu spider在抓取過程中面對(duì)的(de)是一個(gè)超級複雜(zá)的(de)網絡環境.為(wèi)了使系統可以抓取到盡可能多的(de)有(yǒu)價值的(de)資源，并保持系統及實際環境中頁面的(de)一緻性，同時(shí)不給網站體(tǐ)驗造成壓力，須設計(jì)多種複雜(zá)的(de)抓取策略。

下(xià)面作(zuò)一簡單介紹：

(1)抓取友(yǒu)好(hǎo)性
互聯網資源龐大的(de)數量級，要求抓取系統盡可能地(dì)高(gāo)效利用帶寬，在有(yǒu)限的(de)硬件(jiàn)和(hé)帶寬資源下(xià)盡可能多地(dì)抓取到有(yǒu)價值的(de)資源。這(zhè)就造成另一個(gè)問(wèn)題:耗費(fèi)被抓網站的(de)帶寬造成訪問(wèn)壓力，如果程度過大，将直接影響被抓網站的(de)正常用戶訪問(wèn)行為(wèi)。因此，在抓取過程中就要進行一定的(de)抓取壓力控制，達到既不影響網站的(de)正常用戶訪問(wèn)又(yòu)能盡量多地(dì)抓取到有(yǒu)價值資源的(de)目的(de)。
通(tōng)常，最基本的(de)是基于IP的(de)壓力控制。因為(wèi)如果基于域名，可能存在一個(gè)域名對(duì)多個(gè)IP(很(hěn)多大網站)或多個(gè)域名對(duì)應同一個(gè)IP(小(xiǎo)網站共享IP)的(de)問(wèn)題。實際中往往根據P及域名的(de)多種條件(jiàn)進行壓力調配控制。同時(shí)，站長(cháng)平台也推出了壓力反饋工(gōng)具，站長(cháng)可以人(rén)工(gōng)調配對(duì)自(zì)己網站的(de)抓取壓力，這(zhè)時(shí)!百度spider将優先按照(zhào)站長(cháng)的(de)要求進行抓取壓力控制。
對(duì)同一站點的(de)抓取速度控制一般分為(wèi)兩類:
其一，一段時(shí)間(jiān)內(nèi)的(de)抓取頻(pín)率；
其二，段時(shí)間(jiān)內(nèi)的(de)抓取流量。
同一站點不同的(de)時(shí)間(jiān)抓取速度也不同。例如，夜晚抓取的(de)可能就會快一些，也視(shì)具體(tǐ)站點類型而定，主要思想是錯(cuò)開(kāi)正常用戶訪問(wèn)高(gāo)峰，不斷調整。對(duì)于不同站點，也需要不同的(de)抓取速度。

(2)常用抓取返回碼示意
下(xià)面簡單介紹幾種百度支持的(de)返回碼。
①最常見的(de)404代表“NOT FOUND”，認為(wèi)網頁已經失效，通(tōng)常将在庫中删除，同時(shí)短期內(nèi)如果spider再次發現(xiàn)這(zhè)條URL.也不會抓取。
②503代表“Service unavailabl ，認為(wèi)網頁臨時(shí)不可訪問(wèn)，通(tōng)常網站臨時(shí)關閉，帶寬有(yǒu)限等會産生(shēng)這(zhè)種情況。對(duì)于網頁返回503百度spider不會把這(zhè)條url直接删除，同時(shí)短期內(nèi)将會反複訪問(wèn)幾次，如果網頁已恢複，則正常抓取；如果繼續503狀态碼，那(nà)麽這(zhè)條URL仍會被認為(wèi)是失效鏈接，從(cóng)庫中删除。
③403代表Forbidden，認為(wèi)網頁目前禁止訪問(wèn)。如果是新URL， spider暫時(shí)不抓取，短期內(nèi)同樣會反複訪問(wèn)幾次；如果是已收錄UHL，不會直接删除，短期內(nèi)同樣反複訪認為(wèi)是失效鏈接，從(cóng)庫中删除。問(wèn)幾次。如果網頁正常訪問(wèn)，則正常抓取；如果仍然禁止訪問(wèn)，那(nà)麽這(zhè)條URL也會被。
④301代表“Moved”認為(wèi)網頁重定向至新URL當遇到站點遷移域名更換、站點改版的(de)情況時(shí)，推薦使用301返回碼，同田時(shí)使用站長(cháng)平台網站改版工(gōng)具，以減少改版對(duì)網站流量造成的(de)損失。

(3)多種URL重定向的(de)識别
互聯網中的(de)一部分網頁因為(wèi)各種各樣的(de)原因存在URL重定向狀态，為(wèi)了對(duì)這(zhè)部分資源正常抓取，要求 spider對(duì)URL重定向進行識别判斷，同時(shí)防止作(zuò)弊行為(wèi)。重定向可分為(wèi)三類:htp30x重定向、 meta refresh重定向和(hé)js重定向。另外(wài)，百度也支持Canonical标簽，在效果上(shàng)也可以認為(wèi)是一種間(jiān)接的(de)重定向。

(4)抓取優先級調配
由于互聯網資源規模巨大以及變化(huà)迅速，對(duì)于搜索引擎來(lái)說(shuō)，全部抓取到并合理(lǐ)地(dì)更新，保持一緻性幾乎是不可能的(de)事(shì)情，因此要求抓取系統設計(jì)一套合理(lǐ)的(de)抓取優先級調配策略，主要包括深度優先遍曆策略、寬度優先遍曆策略、pr優先策略、反鏈策略、社會化(huà)分享指導策略等。每個(gè)策略各有(yǒu)優劣，在實際情況中往往是多種策略結合使用，以達到最優的(de)抓取效果。

(5)重複URL的(de)過濾
spider在抓取過程中需要判斷一個(gè)頁面是否已經抓取過了，如果還(hái)沒有(yǒu)抓取，再進行抓取網頁的(de)行為(wèi)，并放(fàng)在已抓取網址集合中。判斷是否已經抓取其中涉及最核心的(de)是快速查找并對(duì)比，同時(shí)于涉及URL歸一化(huà)識别。例如，一個(gè)URL中包含大量無效參數，而實際是同一個(gè)頁面，這(zhè)将視(shì)為(wèi)同一個(gè)URL來(lái)對(duì)待。

(6)暗(àn)網數據的(de)獲取
互聯網中存在着大量的(de)搜索引擎暫時(shí)無法抓取到的(de)數據，被稱為(wèi)暗(àn)網數據。一方面，很(hěn)多網站的(de)大量數據存在于網絡數據庫中，spider難以采用抓取網頁的(de)方式獲得完整內(nèi)容；另一方面，由于網絡環境、網站本身(shēn)不符合規範、孤島等問(wèn)題，也會造成搜索引擎無法抓取。目前，對(duì)于暗(àn)網數據的(de)獲取，主要思路(lù)仍然是通(tōng)過開(kāi)放(fàng)平台采用數據提交的(de)方式來(lái)解決，如“百度站長(cháng)平台”“百度開(kāi)放(fàng)平台”等。

(7)抓取反作(zuò)弊
spider在抓取過程中往往會遇到所謂抓取黑(hēi)洞，或者面臨大量低(dī)質量頁面的(de)因擾這(zhè)就要求抓取系統中同樣需要設計(jì)一套完善的(de)抓取反作(zuò)弊系統。例如，分析URL特征分析頁面大小(xiǎo)及內(nèi)容、分析站點規模對(duì)應抓取規模等。Spider抓取系統是搜索引擎數據來(lái)源的(de)重要保證，這(zhè)對(duì)于網站制作(zuò)、網站建設、網站設計(jì)者來(lái)說(shuō)就是機(jī)遇和(hé)突破口，具體(tǐ)的(de)做法就千差萬别了。

上(shàng)一篇: Baidu spider抓取頻(pín)次原則

下(xià)一篇: SEO的(de)優勢與劣勢

服務熱線：0596-2916087 13159168173 傳真：0596-2916087 郵政編碼：363000

公司地(dì)址：漳州市(shì)芗城(chéng)區(qū)四季榮成廣場(chǎng)3幢1013室福建省漳州市(shì)龍文(wén)區(qū)漳華東路(lù)327号中森陽光(guāng)美(měi)地(dì)12幢2單元203室

QQ在線客服

售前客服

售後客服

電(diàn)話(huà)咨詢

0596-2916087