對(duì)于真假百度蜘蛛,相信seo及站長(zhǎng)們已經(jīng)有明晰的手段去分辯了。百度也在官方書記了若何去判別偽裝成百度蜘蛛的抓取,詳情請(qǐng)參考這篇文章:http://www.baidu.com/search/spider.htm
假蜘蛛對(duì)我們網(wǎng)站的風(fēng)險(xiǎn)是巨年夜的,具體有:
占用網(wǎng)站帶寬,導(dǎo)致網(wǎng)站流量上升,增添額外開銷,在有限帶寬的前提下,阻礙了正常蜘蛛的抓取,誤導(dǎo)了我們?cè)趯?duì)網(wǎng)站開展seo工作時(shí)的思緒,部門偽裝成假蜘蛛的采集工具剽竊了我們的工作,我們看到,網(wǎng)上有良多人在分享若何“抓住”假蜘蛛的文章,但這些文章只是陳舊看法的描述了“抓住”假蜘蛛的過(guò)程及操作體例。卻沒(méi)有分享年夜若何真正的判別蜘蛛的真?zhèn)巍?/p>
一、發(fā)現(xiàn)“假蜘蛛”
seo優(yōu)化要依靠年夜量的剖析和數(shù)據(jù)來(lái)實(shí)現(xiàn),此每日志剖析是重中之重,在日志中我們可以看到良多日常平常統(tǒng)計(jì)工具無(wú)法看到的數(shù)據(jù)和事實(shí)。
每周三我都要對(duì)該電子商務(wù)網(wǎng)站進(jìn)行周日志的剖析,以便來(lái)統(tǒng)計(jì)上一周的優(yōu)化效不美觀,在本周進(jìn)行對(duì)網(wǎng)站日志進(jìn)行剖析查看時(shí),我發(fā)現(xiàn)了幾個(gè)不屬于熟悉中的“蜘蛛IP”,如圖:

我們知道,百度蜘蛛一般來(lái)自于202.181.108.* 和123.125.71.* 這兩個(gè)IP段(順便科普一下,這兩個(gè)IP段的百度蜘蛛沒(méi)有所謂高權(quán)重和降權(quán)之分)。顯然這三個(gè)IP在“常識(shí)”中,不屬于百度蜘蛛所屬的IP段。為了確保不誤殺百度蜘蛛,筆者用nslookup ip呼吁反解了此IP,獲得以下信息:

這個(gè)時(shí)辰,根基已經(jīng)可以確定該IP不屬于百度蜘蛛的IP段,是一個(gè)“假蜘蛛”,我們需要屏障該IP釋放那些被占用的帶寬。
作者本人比來(lái)在對(duì)一個(gè)電商網(wǎng)站進(jìn)行seo優(yōu)化時(shí),就碰著了這樣一個(gè)案例,幾乎導(dǎo)致將真蜘蛛錯(cuò)當(dāng)假蜘蛛來(lái)措置。
二,誤會(huì)“假蜘蛛”
就在要對(duì)以上提到的三個(gè)IP進(jìn)行屏障的時(shí)辰,筆者俄然想到,這個(gè)電商網(wǎng)站在上周通知我他們要使用平安寶處事,需要將DNS解析到平安寶的處事器上,而平安寶則會(huì)按照用戶的訪謁情形,選擇距離比來(lái)的一個(gè)節(jié)點(diǎn)進(jìn)行CDN加速。
在我之前的例行seo搜檢中,發(fā)現(xiàn)網(wǎng)站IP被解析到了陜西的一個(gè)IP上,而這個(gè)網(wǎng)站IP和此次我年夜網(wǎng)站日志中發(fā)現(xiàn)的三個(gè)“假蜘蛛”IP屬于統(tǒng)一IP段。為了驗(yàn)證這個(gè)猜測(cè),我又年夜頭細(xì)心查看了網(wǎng)站日志,發(fā)現(xiàn)谷歌蜘蛛和搜狗蜘蛛也來(lái)自于之前三個(gè)IP(之前對(duì)網(wǎng)站日志進(jìn)行了拆分,只查看百度的情形,因?yàn)榫W(wǎng)站是針對(duì)百度做seo的)。
這下子總算清囂張了,這些所屬IP的蜘蛛不是假蜘蛛,而是貨真價(jià)實(shí)的百度蜘蛛、谷歌蜘蛛和其他搜索引擎的蜘蛛。只不外因?yàn)樗麄兘?jīng)由過(guò)程了一次CDN節(jié)點(diǎn),所以造成了他們的來(lái)歷IP是一致的。
三,虛擬主機(jī)若何發(fā)生“假蜘蛛”
由此筆者俄然想到,之前在閱讀相關(guān)文章的時(shí)辰,經(jīng)常會(huì)看到有站長(zhǎng)埋怨發(fā)現(xiàn)假蜘蛛,來(lái)自XX機(jī)房(就那么一兩家機(jī)房)。
這是一件很奇異的工作,莫風(fēng)度集工具和假蜘蛛都產(chǎn)自這個(gè)機(jī)房?事實(shí)自然不是那樣的,而是:
很年夜一部門發(fā)現(xiàn)假蜘蛛的站長(zhǎng),所使用的是某主機(jī)供給商供給的集群主機(jī),或近似性質(zhì)的虛擬主機(jī)集群性質(zhì)的虛擬主機(jī),同CDN的事理是不異的,即將客戶的空間和站點(diǎn)資料同步到統(tǒng)一個(gè)群組的所有處事器上蜘蛛的來(lái)歷分歧,一些是直接訪謁站點(diǎn)的,另一些是經(jīng)由過(guò)程一些外鏈訪謁站點(diǎn)的。而這些經(jīng)由過(guò)程外鏈訪謁站點(diǎn)的蜘蛛,會(huì)就近經(jīng)由過(guò)程CDN節(jié)點(diǎn)訪謁CDN節(jié)點(diǎn)每家公司都紛歧樣,但年夜致分為地域年夜區(qū)(不是省)和電信、網(wǎng)通這樣的體例劃分那些經(jīng)由過(guò)程CDN節(jié)點(diǎn)訪謁網(wǎng)站的蜘蛛,來(lái)歷IP自然不是年夜北京總部出發(fā)時(shí)的IP
最終工作獲得了很好的解決,該電商網(wǎng)站自優(yōu)化以來(lái)效不美觀一向精采,雖然采用了CDN,但事實(shí)證實(shí)CDN對(duì)搜索引擎而言沒(méi)有任何障礙,反而有利于網(wǎng)站速度和提高用戶體驗(yàn)。
這個(gè)seo案例也同時(shí)告訴我們,網(wǎng)上的seo教程是會(huì)過(guò)時(shí)的,跟著互聯(lián)網(wǎng)的前進(jìn),我們seo也要學(xué)會(huì)理智的去看待一些教程和分享,要有質(zhì)疑和勇于實(shí)踐的精神,同時(shí)對(duì)互聯(lián)網(wǎng)的一些根基的手藝常識(shí)要有所體味。
本文由蘭州seo-東方惠梵優(yōu)化團(tuán)隊(duì)楊帆AimarYang原創(chuàng),轉(zhuǎn)載請(qǐng)保留鏈接:http://www.easthv.cc/blog/lanzhouseo/fake-baiduspider-cdn/