今天中午百度站長(zhǎng)社區(qū)平臺(tái)更新了一條公告,如下:

尊敬的各位用戶,親愛的站長(zhǎng)們,大家好:
近期,我們收到一些對(duì)Crawl-delay用法的詢問,現(xiàn)明確百度對(duì)網(wǎng)站訪問頻率不再參考該設(shè)置,即不支持Crawl-delay配置,如果您希望配置網(wǎng)站針對(duì)百度spider的訪問頻率,建議您使用百度站長(zhǎng)平臺(tái)的抓取壓力反饋工具,先查詢網(wǎng)站在百度近一個(gè)月的天級(jí)抓取量趨勢(shì)圖,可調(diào)節(jié)百度spider每天訪問您網(wǎng)站的抓取壓力上限,供百度參考,避免百度spider對(duì)站點(diǎn)抓取壓力過大,造成網(wǎng)站服務(wù)器負(fù)載及抓取異常。
相信很多人都不清楚什么是Crawl-delay,筆者也是才知道有這個(gè)東西,通過搜索,筆者了解到Crawl-delay翻譯成中文意思是抓取延遲的意思。那么Crawl-delay到底干什么用的呢?用在什么地方呢?筆者在一番查詢之后整理出來,與大家分享:
要談到Crawl-delay的用途,還需要提及大家都比較熟悉的Robots協(xié)議,網(wǎng)站通過robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。而通過Crawl-delay我們可以設(shè)置一個(gè)讓蜘蛛有較低的抓取請(qǐng)求頻率,這樣就可以降低了服務(wù)器的壓力,而設(shè)置Cralw-delay的大小應(yīng)該根據(jù)服務(wù)器能夠承受的壓力和機(jī)器人的數(shù)量來確定。例如你希望yahoo的機(jī)器人每2秒來一次,就應(yīng)該先查看訪問服務(wù)器的yahoo的機(jī) 器人有多少個(gè),假如有40個(gè)yahoo機(jī)器人,這個(gè)參數(shù)就應(yīng)該設(shè)置為2*40=80。但如果40多個(gè)爬蟲恰好都在同一個(gè)時(shí)間段內(nèi)采集,即便每只間隔100秒,40只先后腳的來爬,到最后一只 爬完后,第一只的間隔時(shí)間又到了,造成的壓力很大了,不過這可能是最“理想”狀態(tài)下才會(huì)發(fā)生的。
接下來展示一個(gè) Crawl-delay的應(yīng)用實(shí)例:

大家可以看到Crawl-delay 后面的數(shù)值100表示告訴蜘蛛程序,以秒為單位的最低延時(shí)。如果crawler頻率對(duì)您的服務(wù)器是一個(gè)負(fù)擔(dān),您可以將這個(gè)延時(shí)設(shè)定為任何您認(rèn)為恰當(dāng)?shù)臄?shù)字,每間隔100s來爬行一次。這個(gè)設(shè)置似乎只針對(duì)于大站,小站很少見,設(shè)置Crawl-delay注要原因是蜘蛛程序爬的過快,會(huì)給服務(wù)器照成負(fù)擔(dān),影響正常的網(wǎng)站展示速度。
百度此次特地發(fā)出聲明說不支持Crawl-delay設(shè)置,并不代表從此Crawl-delay設(shè)置無用武之地。目前支持這個(gè)參數(shù)的搜索引擎有Slurp(yahoo和altaVista的機(jī)器人)、MSN使用的微軟機(jī)器人,Googlebot還沒有使用“Crawl-delay”參數(shù),現(xiàn)在百度也沒有,那么我們可以反過來想,如果我們主要是以百度搜索為主要推廣手段以其他搜索引擎為輔助的話,我們可以在服務(wù)器條件不好的情況下,通過設(shè)置Crawl-delay降低其他搜索引擎的抓取頻率,這樣就可以合理的減少服務(wù)器壓力,從影響優(yōu)化因素的角度來講也是一個(gè)好消息!
所以,不管百度怎么變,宗旨是不會(huì)變的,我們?cè)趪@百度做優(yōu)化的同時(shí),合理的采取一些小技巧,也許會(huì)收到意想不到的收獲!
文章編輯由南昌胃腸檢查http://www.86818330.com/獨(dú)家編撰,轉(zhuǎn)載請(qǐng)勿刪除源地址!