關(guān)于搜索引擎蜘蛛的seo基礎(chǔ)內(nèi)容解析?秦皇島seo博客上線一年多了,和朋友分享了很多關(guān)于seo的基礎(chǔ)知識。今天發(fā)現(xiàn)沒有和朋友分享搜索引擎蜘蛛這樣重要的基本概念。雖然這個(gè)概念與seo優(yōu)化操作沒有直接關(guān)系,但是通過了解和理解蜘蛛,我們可以知道如何處理搜索引擎在seo方案實(shí)施中的爬行和包含問題。
今天內(nèi)容的主題來自于百度站長平臺上一篇關(guān)于百度蜘蛛的介紹。主體如下:
1.什么是拜都斯皮德
Baiduspider是百度搜索引擎的自動程序。它的功能是訪問互聯(lián)網(wǎng)上的網(wǎng)頁,建立索引數(shù)據(jù)庫,讓用戶可以在百度搜索引擎中搜索到你網(wǎng)站上的網(wǎng)頁。
2.百度蜘蛛的用戶代理是什么?
百度產(chǎn)品使用不同的用戶代理:
對應(yīng)于產(chǎn)品名稱的用戶代理
網(wǎng)絡(luò)搜索Baiduspider
無線搜索Baiduspider
圖片搜索Baiduspider-圖片
視頻搜索Baiduspider-視頻
新聞搜索Baiduspider-新聞
百度搜索Baiduspider-favo
百度聯(lián)盟Baiduspider-cpro
商業(yè)搜索Baiduspider-廣告
3.百度蜘蛛對一個(gè)網(wǎng)站服務(wù)器的訪問壓力有多大?
Baiduspider需要在你的網(wǎng)站上保持一定的抓取量,才能在目標(biāo)資源上達(dá)到更好的檢索效果。我們會盡量不給網(wǎng)站帶來不合理的負(fù)擔(dān),根據(jù)服務(wù)器承受能力、網(wǎng)站質(zhì)量、網(wǎng)站更新等綜合因素進(jìn)行調(diào)整。如果覺得baiduspider的訪問行為不合理,可以向反饋中心反饋。
4.為什么Baiduspider一直在我的網(wǎng)站上爬?
Baiduspider會持續(xù)抓取您網(wǎng)站上新生成或持續(xù)更新的頁面。另外,還可以在網(wǎng)站訪問日志中查看Baiduspider的訪問是否正常,防止有人惡意冒充Baiduspider頻繁抓取你的網(wǎng)站。如果您發(fā)現(xiàn)Baiduspider對您的網(wǎng)站進(jìn)行異常抓取,請通過反饋中心給我們反饋,并盡量將Baiduspider的訪問日志交給您所在的站,供我們跟蹤處理。
5.如何判斷是否要冒充Baiduspider?
建議你用DNS反向查找來確定抓取源的ip是否屬于百度。根據(jù)平臺不同,認(rèn)證方式也不同。例如,linux/windows/os下的身份驗(yàn)證方法如下:
5.1在linux平臺下,可以使用host ip命令反向ip,確定是否來自Baiduspider。Baiduspider的主機(jī)名以* Baidu . com或*.baidu.jp的格式命名,如果不是*.baidu.com或* .baidu.jp,就是冒名頂替。
$ host 123 . 125 . 66 . 120120 . 66 . 125 . 123 . in-addr . arpa域名pointerbaiduspider-123-125-66-120.crawl.baidu.com.host 119 . 63 . 195 . 254254 . 195 . 63 . 119 . in-ad dr . arpa域名pointerBaiduMobaider-119-63-195-254 . crawl . Baidu . jp
5.2在windows平臺或IBM OS/2平臺上,可以使用nslookup ip命令反向ip,確定是否被Baiduspider抓取。打開命令處理器,輸入nslookup xxx.xxx.xxx.xxx(ip地址)解析ip,判斷是否被Baiduspider抓取。Baiduspider的主機(jī)名以* Baidu . com或*.baidu.jp的格式命名,如果不是*.baidu.com或* .baidu.jp,就是冒名頂替。
5.3在mac os平臺上,可以使用dig命令反向ip,確定是否來自Baiduspider。打開命令處理器,輸入dig xxx.xxx.xxx.xxx(ip地址)解析ip,判斷是否被Baiduspider抓取。Baiduspider的主機(jī)名以* Baidu . com或*.baidu.jp的格式命名,如果不是*.baidu.com或* .baidu.jp,就是冒名頂替。
6.我不希望我的網(wǎng)站被Baiduspider訪問。我該怎么辦?
Baiduspider遵守互聯(lián)網(wǎng)機(jī)器人協(xié)議。您可以使用robots.txt文件完全禁止Baiduspider訪問您的網(wǎng)站,或者禁止Baiduspider訪問您網(wǎng)站上的一些文件。注意:禁止Baiduspider訪問您的網(wǎng)站會使您網(wǎng)站上的網(wǎng)頁無法在百度搜索引擎和百度提供的所有搜索引擎中進(jìn)行搜索。
您可以根據(jù)每個(gè)產(chǎn)品的不同用戶代理設(shè)置不同的爬網(wǎng)規(guī)則。如果想完全禁止所有百度產(chǎn)品被收錄,可以直接設(shè)置Baiduspider禁止抓取。
以下機(jī)器人實(shí)現(xiàn)禁止來自百度的所有抓取:用戶代理:百度蜘蛛不允許:/
以下機(jī)器人實(shí)現(xiàn)禁止從百度進(jìn)行所有抓取,但允許圖像搜索抓取/圖像/目錄:用戶代理:百度蜘蛛不允許:/
用戶代理:Baiduspider-imageAllow: /image/
請注意:Baiduspider-cpro抓取的網(wǎng)頁不會被索引,只會執(zhí)行與客戶約定的操作,因此不符合robots協(xié)議。如果Baiduspider-cpro給您帶來麻煩,請聯(lián)系union1@baidu.com。
Baiduspider-ads抓取的網(wǎng)頁不會被索引,只會執(zhí)行與客戶約定的操作,因此不符合robots協(xié)議。如果Baiduspider-ads給您帶來麻煩,請聯(lián)系您的客戶服務(wù)專家。
7.為什么在網(wǎng)站上添加robots.txt后可以在百度上搜索?
因?yàn)楦滤阉饕嫠饕龜?shù)據(jù)庫需要時(shí)間。雖然Baiduspider已經(jīng)停止訪問您網(wǎng)站上的網(wǎng)頁,但清除百度搜索引擎數(shù)據(jù)庫中已經(jīng)建立的網(wǎng)頁索引信息可能需要幾個(gè)月的時(shí)間。請檢查您的機(jī)器人配置是否正確。
如果您拒絕加入是緊急情況,您也可以通過反饋中心反饋請求。
8.希望我的網(wǎng)站內(nèi)容被百度索引,但不要被搶購。我該怎么辦?
Baiduspider遵守互聯(lián)網(wǎng)元機(jī)器人協(xié)議。可以使用網(wǎng)頁meta的設(shè)置,讓百度顯示只對網(wǎng)頁進(jìn)行索引,而不在搜索結(jié)果中顯示網(wǎng)頁的快照。
和機(jī)器人的更新一樣,因?yàn)楦滤阉饕嫠饕龜?shù)據(jù)庫需要時(shí)間,雖然你已經(jīng)禁止百度通過網(wǎng)頁中的meta在搜索結(jié)果中顯示網(wǎng)頁的快照,但是如果網(wǎng)頁索引信息已經(jīng)在百度搜索引擎數(shù)據(jù)庫中建立,可能需要兩到四周才能在線生效。
9.百度蜘蛛爬行導(dǎo)致帶寬擁塞?
Baiduspider的正常抓取不會屏蔽你網(wǎng)站的帶寬,可能是有人冒充Baiduspider惡意抓取造成的。如果你發(fā)現(xiàn)有一個(gè)叫Baiduspider的代理抓取造成帶寬擁塞,請盡快聯(lián)系我們。你可以把信息反饋給反饋中心。如果你能提供你當(dāng)時(shí)網(wǎng)站的訪問日志,對我們的分析會更有好處。
轉(zhuǎn)載請注明:秦皇島seo,網(wǎng)絡(luò)推廣,優(yōu)享網(wǎng)-更全面的互聯(lián)網(wǎng)資源下載網(wǎng)站 » 關(guān)于搜索引擎蜘蛛的seo基礎(chǔ)內(nèi)容解析
- GBT 10002.1-2006 給水用硬聚氯乙烯(PVC_U)管材.pdf
- 12YD8+內(nèi)線工程.pdf
- DBJ61-65-2011 陜西省居住建筑節(jié)能設(shè)計(jì)標(biāo)準(zhǔn).pdf
- JTT1117-2017 綜合客運(yùn)樞紐智能化系統(tǒng)信息交換技術(shù)規(guī)范.PDF
- GBT50562-2010 煤炭礦井工程基本術(shù)語標(biāo)準(zhǔn).pdf
- 2006浙J55 變形縫建筑構(gòu)造.pdf
- NBT 47006-2009 鋁制板翅式熱交換器.pdf
- GBT18958-2013 難燃中密度纖維板.pdf