歡迎來(lái)到漳州壹玖網絡科技有限公司

新聞動态News information

您的(de)位置:首頁>新聞動态

新聞動态

News information
Baidu spider抓取異常的(de)原因
發表于2018/2/5

  有(yǒu)一些網頁,內(nèi)容優質,用戶也可以正常訪問(wèn),但(dàn)是Baidu spider卻無法正常訪問(wèn)并抓取,造成搜索結果覆蓋率缺失,對(duì)百度搜索引擎、對(duì)站點都(dōu)是一種損失,百度把這(zhè)種情況叫“抓取異常”。對(duì)于大量內(nèi)容無法正常抓取的(de)網站,百度搜索引擎會認為(wèi)網站存在用戶體(tǐ)驗上(shàng)的(de)缺陷,并降低(dī)對(duì)網站的(de)評價,在抓取、索引,排序上(shàng)都(dōu)會受到一定程度的(de)負面影響,最終影響到網站從(cóng)百度獲取的(de)流量。



下(xià)面介紹一些常見的(de)抓取異常的(de)原因。
(1)服務器(qì)連接異常。服務器(qì)連接異常會有(yǒu)兩種情況。一種是站點不穩定,Baidu spider嘗試連接網站的(de)服務器(qì)時(shí)出現(xiàn)暫時(shí)無法連接的(de)情況;另一種是Baidu spider一直無法連接上(shàng)網站的(de)服務器(qì)。造成服務器(qì)連接異常的(de)原因通(tōng)常是網站服務器(qì)過大,超負荷運轉。也有(yǒu)可能是網站運行不正常,請檢查網站的(de)Web服務器(qì)(如apache、is)是否安裝且正常運行,并使用浏覽器(qì)檢查主要頁面能否正常訪問(wèn)。網站和(hé)主機(jī)還(hái)可能阻止了Baidu spider的(de)訪問(wèn),需要檢查網站和(hé)主機(jī)的(de)防火牆。
(2)網絡運營商異常。網絡運營商分電(diàn)信和(hé)聯通(tōng)兩種,Baidu spider通(tōng)過電(diàn)信或網通(tōng)無法訪問(wèn)網站。如果出現(xiàn)這(zhè)種情況,需要與網絡服務運營商進行聯系,或者購買擁有(yǒu)雙線服務的(de)空間(jiān)或者購買cdn服務。
(3)DNS異常。當Baidu spider無法解析網站的(de)P時(shí),會出現(xiàn)DNS異常。可能是網站IP地(dì)址錯(cuò)誤,或者域名服務商把Baidu spider封禁。請使用 WHOIS或者host查詢自(zì)己網站的(de)IP地(dì)址是否正确且可解析,如果不正确或無法解析,請與域名注冊商聯系,更新IP地(dì)址。
(4)IP封禁。限制網絡的(de)出口IP地(dì)址,禁止該P段的(de)使用者進行內(nèi)容訪問(wèn)、,這(zhè)裏特指封禁了Baidu spider ip。當網站不希望Baidu spider訪問(wèn)時(shí),才需要該設置,如果希望Baidu spider訪問(wèn)網站,請檢查相(xiàng)關設置中是否誤添了Baidu spider ip.。也有(yǒu)可能是網站所在的(de)空間(jiān)服務商把百度P進行i了封禁,這(zhè)日(rì)時(shí)需要聯系服務商更改設置。
(5)UA封禁。服務器(qì)通(tōng)過UA識别訪問(wèn)者的(de)身(shēn)份。當網站針對(duì)指定UA的(de)訪不希望Baidu spider訪間(jiān)時(shí),才需要該設置,如果您希望 Baidu spider訪問(wèn)您的(de)網站 問(wèn),返回異常頁面(如403,500)或跳(tiào)轉到其他(tā)頁面的(de)情況,即為(wèi)UA封禁。當網站useragent相(xiàng)關的(de)設置中是否有(yǒu)Baidu spider ua,并及時(shí)修改。
(6)死鏈。頁面已經無效,無法對(duì)用戶提供任何有(yǒu)價值信息的(de)頁面就是死鏈接, 包括協議(yì)死鏈和(hé)內(nèi)容死鏈兩種形式協議(yì)死鏈。頁面的(de)tcp狀态,http狀态明(míng)确表示的(de)死鏈,常見的(de)如404、403、503狀态等。內(nèi)容死鏈。服務器(qì)返回狀态是正常的(de),但(dàn)內(nèi)容已經變更為(wèi)不存在,已删或需要權限等與原內(nèi)容無關的(de)信息頁面。對(duì)于死鏈,建議(yì)站點使用協議(yì)死鏈,并通(tōng)過百度站長(cháng)平台—死結工(gōng)具向百度提交,以便百度更快地(dì)發現(xiàn)死鏈,減少死鏈對(duì)用戶以及搜索引擎造成的(de)負面影響。
(7)異常跳(tiào)轉。将網絡請求重新指向其他(tā)位置即為(wèi)跳(tiào)轉。異常跳(tiào)轉指的(de)是以下(xià)幾種情況:
①當前該頁面為(wèi)無效頁面(如內(nèi)容已删除。死鏈等),直接跳(tiào)轉到前一目錄或者首頁,百度建議(yì)站長(cháng)将該無效頁面的(de)人(rén)口超鏈接删除。
②跳(tiào)轉到出錯(cuò)或者無效頁面注意:對(duì)于長(cháng)時(shí)間(jiān)跳(tiào)轉到其他(tā)城(chéng)名的(de)情況,如網站更繞域名,百度建議(yì)使用301跳(tiào)轉協議(yì)進行設置。
(8)其他(tā)異常。
①針對(duì)百度reer的(de)異常:網頁針對(duì)來(lái)自(zì)百度的(de)mfe返回不同于正常內(nèi)容的(de)行為(wèi)。
②針對(duì)百度ua的(de)異常:網頁對(duì)百度UA返回不同于頁面原內(nèi)容的(de)行為(wèi)。
③Js跳(tiào)轉異常:網站設計(jì)加載了百度無法識别的(de)N跳(tiào)轉代碼,使得用戶通(tōng)過搜索結果進入頁面後發生(shēng)了跳(tiào)轉的(de)情況。
④壓力過大引起的(de)偶然封禁:百度會根據站點的(de)規模、訪問(wèn)量等信息,自(zì)動設定一個(gè)合理(lǐ)的(de)抓取壓力。但(dàn)是在異常情況下(xià),如壓力控制失常時(shí),服務器(qì)會根據自(zì)身(shēn)負荷進行保護性的(de)偶然封禁。這(zhè)種情況下(xià),請在返回碼中返回503(其含義是Service Unavailable),這(zhè)樣Baidu spider會過段時(shí)間(jiān)再來(lái)嘗試抓取這(zhè)個(gè)鏈接,如果網站已空閑,則會被成功抓取。

QQ在線客服
電(diàn)話(huà)咨詢
0596-2916087