關(guān)于搜索引擎蜘蛛的seo基礎(chǔ)內(nèi)容解析?秦皇島seo博客上線一年多了,和朋友分享了很多關(guān)于seo的基礎(chǔ)知識(shí)。今天發(fā)現(xiàn)沒(méi)有和朋友分享搜索引擎蜘蛛這樣重要的基本概念。雖然這個(gè)概念與seo優(yōu)化操作沒(méi)有直接關(guān)系,但是通過(guò)了解和理解蜘蛛,我們可以知道如何處理搜索引擎在seo方案實(shí)施中的爬行和包含問(wèn)題。
今天內(nèi)容的主題來(lái)自于百度站長(zhǎng)平臺(tái)上一篇關(guān)于百度蜘蛛的介紹。主體如下:
1.什么是拜都斯皮德
Baiduspider是百度搜索引擎的自動(dòng)程序。它的功能是訪問(wèn)互聯(lián)網(wǎng)上的網(wǎng)頁(yè),建立索引數(shù)據(jù)庫(kù),讓用戶可以在百度搜索引擎中搜索到你網(wǎng)站上的網(wǎng)頁(yè)。
2.百度蜘蛛的用戶代理是什么?
百度產(chǎn)品使用不同的用戶代理:
對(duì)應(yīng)于產(chǎn)品名稱的用戶代理
網(wǎng)絡(luò)搜索Baiduspider
無(wú)線搜索Baiduspider
圖片搜索Baiduspider-圖片
視頻搜索Baiduspider-視頻
新聞搜索Baiduspider-新聞
百度搜索Baiduspider-favo
百度聯(lián)盟Baiduspider-cpro
商業(yè)搜索Baiduspider-廣告
3.百度蜘蛛對(duì)一個(gè)網(wǎng)站服務(wù)器的訪問(wèn)壓力有多大?
Baiduspider需要在你的網(wǎng)站上保持一定的抓取量,才能在目標(biāo)資源上達(dá)到更好的檢索效果。我們會(huì)盡量不給網(wǎng)站帶來(lái)不合理的負(fù)擔(dān),根據(jù)服務(wù)器承受能力、網(wǎng)站質(zhì)量、網(wǎng)站更新等綜合因素進(jìn)行調(diào)整。如果覺(jué)得baiduspider的訪問(wèn)行為不合理,可以向反饋中心反饋。
4.為什么Baiduspider一直在我的網(wǎng)站上爬?
Baiduspider會(huì)持續(xù)抓取您網(wǎng)站上新生成或持續(xù)更新的頁(yè)面。另外,還可以在網(wǎng)站訪問(wèn)日志中查看Baiduspider的訪問(wèn)是否正常,防止有人惡意冒充Baiduspider頻繁抓取你的網(wǎng)站。如果您發(fā)現(xiàn)Baiduspider對(duì)您的網(wǎng)站進(jìn)行異常抓取,請(qǐng)通過(guò)反饋中心給我們反饋,并盡量將Baiduspider的訪問(wèn)日志交給您所在的站,供我們跟蹤處理。
5.如何判斷是否要冒充Baiduspider?
建議你用DNS反向查找來(lái)確定抓取源的ip是否屬于百度。根據(jù)平臺(tái)不同,認(rèn)證方式也不同。例如,linux/windows/os下的身份驗(yàn)證方法如下:
5.1在linux平臺(tái)下,可以使用host ip命令反向ip,確定是否來(lái)自Baiduspider。Baiduspider的主機(jī)名以* Baidu . com或*.baidu.jp的格式命名,如果不是*.baidu.com或* .baidu.jp,就是冒名頂替。
$ host 123 . 125 . 66 . 120120 . 66 . 125 . 123 . in-addr . arpa域名pointerbaiduspider-123-125-66-120.crawl.baidu.com.host 119 . 63 . 195 . 254254 . 195 . 63 . 119 . in-ad dr . arpa域名pointerBaiduMobaider-119-63-195-254 . crawl . Baidu . jp
5.2在windows平臺(tái)或IBM OS/2平臺(tái)上,可以使用nslookup ip命令反向ip,確定是否被Baiduspider抓取。打開(kāi)命令處理器,輸入nslookup xxx.xxx.xxx.xxx(ip地址)解析ip,判斷是否被Baiduspider抓取。Baiduspider的主機(jī)名以* Baidu . com或*.baidu.jp的格式命名,如果不是*.baidu.com或* .baidu.jp,就是冒名頂替。
5.3在mac os平臺(tái)上,可以使用dig命令反向ip,確定是否來(lái)自Baiduspider。打開(kāi)命令處理器,輸入dig xxx.xxx.xxx.xxx(ip地址)解析ip,判斷是否被Baiduspider抓取。Baiduspider的主機(jī)名以* Baidu . com或*.baidu.jp的格式命名,如果不是*.baidu.com或* .baidu.jp,就是冒名頂替。
6.我不希望我的網(wǎng)站被Baiduspider訪問(wèn)。我該怎么辦?
Baiduspider遵守互聯(lián)網(wǎng)機(jī)器人協(xié)議。您可以使用robots.txt文件完全禁止Baiduspider訪問(wèn)您的網(wǎng)站,或者禁止Baiduspider訪問(wèn)您網(wǎng)站上的一些文件。注意:禁止Baiduspider訪問(wèn)您的網(wǎng)站會(huì)使您網(wǎng)站上的網(wǎng)頁(yè)無(wú)法在百度搜索引擎和百度提供的所有搜索引擎中進(jìn)行搜索。
您可以根據(jù)每個(gè)產(chǎn)品的不同用戶代理設(shè)置不同的爬網(wǎng)規(guī)則。如果想完全禁止所有百度產(chǎn)品被收錄,可以直接設(shè)置Baiduspider禁止抓取。
以下機(jī)器人實(shí)現(xiàn)禁止來(lái)自百度的所有抓取:用戶代理:百度蜘蛛不允許:/
以下機(jī)器人實(shí)現(xiàn)禁止從百度進(jìn)行所有抓取,但允許圖像搜索抓取/圖像/目錄:用戶代理:百度蜘蛛不允許:/
用戶代理:Baiduspider-imageAllow: /image/
請(qǐng)注意:Baiduspider-cpro抓取的網(wǎng)頁(yè)不會(huì)被索引,只會(huì)執(zhí)行與客戶約定的操作,因此不符合robots協(xié)議。如果Baiduspider-cpro給您帶來(lái)麻煩,請(qǐng)聯(lián)系union1@baidu.com。
Baiduspider-ads抓取的網(wǎng)頁(yè)不會(huì)被索引,只會(huì)執(zhí)行與客戶約定的操作,因此不符合robots協(xié)議。如果Baiduspider-ads給您帶來(lái)麻煩,請(qǐng)聯(lián)系您的客戶服務(wù)專家。
7.為什么在網(wǎng)站上添加robots.txt后可以在百度上搜索?
因?yàn)楦滤阉饕嫠饕龜?shù)據(jù)庫(kù)需要時(shí)間。雖然Baiduspider已經(jīng)停止訪問(wèn)您網(wǎng)站上的網(wǎng)頁(yè),但清除百度搜索引擎數(shù)據(jù)庫(kù)中已經(jīng)建立的網(wǎng)頁(yè)索引信息可能需要幾個(gè)月的時(shí)間。請(qǐng)檢查您的機(jī)器人配置是否正確。
如果您拒絕加入是緊急情況,您也可以通過(guò)反饋中心反饋請(qǐng)求。
8.希望我的網(wǎng)站內(nèi)容被百度索引,但不要被搶購(gòu)。我該怎么辦?
Baiduspider遵守互聯(lián)網(wǎng)元機(jī)器人協(xié)議。可以使用網(wǎng)頁(yè)meta的設(shè)置,讓百度顯示只對(duì)網(wǎng)頁(yè)進(jìn)行索引,而不在搜索結(jié)果中顯示網(wǎng)頁(yè)的快照。
和機(jī)器人的更新一樣,因?yàn)楦滤阉饕嫠饕龜?shù)據(jù)庫(kù)需要時(shí)間,雖然你已經(jīng)禁止百度通過(guò)網(wǎng)頁(yè)中的meta在搜索結(jié)果中顯示網(wǎng)頁(yè)的快照,但是如果網(wǎng)頁(yè)索引信息已經(jīng)在百度搜索引擎數(shù)據(jù)庫(kù)中建立,可能需要兩到四周才能在線生效。
9.百度蜘蛛爬行導(dǎo)致帶寬擁塞?
Baiduspider的正常抓取不會(huì)屏蔽你網(wǎng)站的帶寬,可能是有人冒充Baiduspider惡意抓取造成的。如果你發(fā)現(xiàn)有一個(gè)叫Baiduspider的代理抓取造成帶寬擁塞,請(qǐng)盡快聯(lián)系我們。你可以把信息反饋給反饋中心。如果你能提供你當(dāng)時(shí)網(wǎng)站的訪問(wèn)日志,對(duì)我們的分析會(huì)更有好處。
轉(zhuǎn)載請(qǐng)注明:秦皇島seo,網(wǎng)絡(luò)推廣,優(yōu)享網(wǎng)-更全面的互聯(lián)網(wǎng)資源下載網(wǎng)站 » 關(guān)于搜索引擎蜘蛛的seo基礎(chǔ)內(nèi)容解析