關于搜索引擎蜘蛛的seo基礎內容解析?秦皇島seo博客上線一年多了,和朋友分享了很多關于seo的基礎知識。今天發現沒有和朋友分享搜索引擎蜘蛛這樣重要的基本概念。雖然這個概念與seo優化操作沒有直接關系,但是通過了解和理解蜘蛛,我們可以知道如何處理搜索引擎在seo方案實施中的爬行和包含問題。
今天內容的主題來自于百度站長平臺上一篇關于百度蜘蛛的介紹。主體如下:
1.什么是拜都斯皮德
Baiduspider是百度搜索引擎的自動程序。它的功能是訪問互聯網上的網頁,建立索引數據庫,讓用戶可以在百度搜索引擎中搜索到你網站上的網頁。
2.百度蜘蛛的用戶代理是什么?
百度產品使用不同的用戶代理:
對應于產品名稱的用戶代理
網絡搜索Baiduspider
無線搜索Baiduspider
圖片搜索Baiduspider-圖片
視頻搜索Baiduspider-視頻
新聞搜索Baiduspider-新聞
百度搜索Baiduspider-favo
百度聯盟Baiduspider-cpro
商業搜索Baiduspider-廣告
3.百度蜘蛛對一個網站服務器的訪問壓力有多大?
Baiduspider需要在你的網站上保持一定的抓取量,才能在目標資源上達到更好的檢索效果。我們會盡量不給網站帶來不合理的負擔,根據服務器承受能力、網站質量、網站更新等綜合因素進行調整。如果覺得baiduspider的訪問行為不合理,可以向反饋中心反饋。
4.為什么Baiduspider一直在我的網站上爬?
Baiduspider會持續抓取您網站上新生成或持續更新的頁面。另外,還可以在網站訪問日志中查看Baiduspider的訪問是否正常,防止有人惡意冒充Baiduspider頻繁抓取你的網站。如果您發現Baiduspider對您的網站進行異常抓取,請通過反饋中心給我們反饋,并盡量將Baiduspider的訪問日志交給您所在的站,供我們跟蹤處理。
5.如何判斷是否要冒充Baiduspider?
建議你用DNS反向查找來確定抓取源的ip是否屬于百度。根據平臺不同,認證方式也不同。例如,linux/windows/os下的身份驗證方法如下:
5.1在linux平臺下,可以使用host ip命令反向ip,確定是否來自Baiduspider。Baiduspider的主機名以* Baidu . com或*.baidu.jp的格式命名,如果不是*.baidu.com或* .baidu.jp,就是冒名頂替。
$ host 123 . 125 . 66 . 120120 . 66 . 125 . 123 . in-addr . arpa域名pointerbaiduspider-123-125-66-120.crawl.baidu.com.host 119 . 63 . 195 . 254254 . 195 . 63 . 119 . in-ad dr . arpa域名pointerBaiduMobaider-119-63-195-254 . crawl . Baidu . jp
5.2在windows平臺或IBM OS/2平臺上,可以使用nslookup ip命令反向ip,確定是否被Baiduspider抓取。打開命令處理器,輸入nslookup xxx.xxx.xxx.xxx(ip地址)解析ip,判斷是否被Baiduspider抓取。Baiduspider的主機名以* Baidu . com或*.baidu.jp的格式命名,如果不是*.baidu.com或* .baidu.jp,就是冒名頂替。
5.3在mac os平臺上,可以使用dig命令反向ip,確定是否來自Baiduspider。打開命令處理器,輸入dig xxx.xxx.xxx.xxx(ip地址)解析ip,判斷是否被Baiduspider抓取。Baiduspider的主機名以* Baidu . com或*.baidu.jp的格式命名,如果不是*.baidu.com或* .baidu.jp,就是冒名頂替。
6.我不希望我的網站被Baiduspider訪問。我該怎么辦?
Baiduspider遵守互聯網機器人協議。您可以使用robots.txt文件完全禁止Baiduspider訪問您的網站,或者禁止Baiduspider訪問您網站上的一些文件。注意:禁止Baiduspider訪問您的網站會使您網站上的網頁無法在百度搜索引擎和百度提供的所有搜索引擎中進行搜索。
您可以根據每個產品的不同用戶代理設置不同的爬網規則。如果想完全禁止所有百度產品被收錄,可以直接設置Baiduspider禁止抓取。
以下機器人實現禁止來自百度的所有抓取:用戶代理:百度蜘蛛不允許:/
以下機器人實現禁止從百度進行所有抓取,但允許圖像搜索抓取/圖像/目錄:用戶代理:百度蜘蛛不允許:/
用戶代理:Baiduspider-imageAllow: /image/
請注意:Baiduspider-cpro抓取的網頁不會被索引,只會執行與客戶約定的操作,因此不符合robots協議。如果Baiduspider-cpro給您帶來麻煩,請聯系union1@baidu.com。
Baiduspider-ads抓取的網頁不會被索引,只會執行與客戶約定的操作,因此不符合robots協議。如果Baiduspider-ads給您帶來麻煩,請聯系您的客戶服務專家。
7.為什么在網站上添加robots.txt后可以在百度上搜索?
因為更新搜索引擎索引數據庫需要時間。雖然Baiduspider已經停止訪問您網站上的網頁,但清除百度搜索引擎數據庫中已經建立的網頁索引信息可能需要幾個月的時間。請檢查您的機器人配置是否正確。
如果您拒絕加入是緊急情況,您也可以通過反饋中心反饋請求。
8.希望我的網站內容被百度索引,但不要被搶購。我該怎么辦?
Baiduspider遵守互聯網元機器人協議。可以使用網頁meta的設置,讓百度顯示只對網頁進行索引,而不在搜索結果中顯示網頁的快照。
和機器人的更新一樣,因為更新搜索引擎索引數據庫需要時間,雖然你已經禁止百度通過網頁中的meta在搜索結果中顯示網頁的快照,但是如果網頁索引信息已經在百度搜索引擎數據庫中建立,可能需要兩到四周才能在線生效。
9.百度蜘蛛爬行導致帶寬擁塞?
Baiduspider的正常抓取不會屏蔽你網站的帶寬,可能是有人冒充Baiduspider惡意抓取造成的。如果你發現有一個叫Baiduspider的代理抓取造成帶寬擁塞,請盡快聯系我們。你可以把信息反饋給反饋中心。如果你能提供你當時網站的訪問日志,對我們的分析會更有好處。