什么叫蜘蛛,蜘蛛的英文名是Spider,也稱之為爬蟲、機器人。蜘蛛其實就是搜索引擎的爬取程序,在我們人眼看不到的情況下行走于我們網站的各個網頁內部,抓取一些他認為有用或者有價值的網頁。那么蜘蛛是通過什么樣的辦法來收錄我們的網頁的,又是通過什么樣的方法來辨別我們站內的內容的呢?
相信大家都看到過大自然中的蜘蛛,自然生活中的蜘蛛通常都是在一個地方織網,那個網就像一個八卦一樣,一個網是由很多的小節點連接起來的。那么我們的搜索引擎爬取是通過什么來連接的呢?搜索引擎蜘蛛通過站內的鏈接從這個網頁爬到另一個網頁,只要你站內的鏈接沒有斷開或者出現死鏈接,那么蜘蛛會一直在你的站內進行爬取的。我們把鏈接分為兩種,一種是用戶可以點擊的,一種是不可以點擊的,我們很多人認為蜘蛛跟用戶是一樣的,只有通過可以點擊的鏈接才能爬到你的網頁,其實這種理解是錯誤的。
蜘蛛是爬取每個網頁的源代碼 ,他會收集源代碼里帶有“http”或者“cn、com、net”等這樣的地址,然后再去爬取這些收集的地址。通過蜘蛛爬取的原理我們就可以理解為什么我們需要發外鏈,通過外部的鏈接讓蜘蛛爬取到我們的站內,又通過我們站內的鏈接爬取我們整個網站。所以說站內跟站外鏈接都是很重要的,不得不說的是,蜘蛛更喜歡網站首頁的鏈接。
蜘蛛爬取與百度快照的關系
一、蜘蛛爬取網站頁面不等于該頁面就會被收錄
蜘蛛爬取后還需要經過一系列的審核程序,當他爬取的頁面達到搜索引擎的最低收錄要求的時候就會被允許收錄,達不到的話這個頁面就會被丟棄或者暫時保存,但并不會放出來。
二、百度快照更新快說明蜘蛛爬取該網站的頻率非常高
網站的快照更新頻率越快,那就可以肯定蜘蛛的爬取頻率也是非常高的,因為快照是必須要蜘蛛爬取審核通過之后才能夠實現的。
三、蜘蛛的爬取頻率越高,網站的權重越高
一般來說搜索引擎對于某一個網站的爬取頻率越高的話代表這個網站本身獲得了搜索引擎很高的信用度或者有大量的反向鏈接指向該網站從而引導該網站進行爬取跟蹤。所以提升網站的蜘蛛爬取頻率有利于提升我們整個網站的權重,這就需要我們多做鏈接誘餌,穩定增加反向鏈接,保持固有的網站內容更新頻率。
以上由常州102骨科醫院—腰椎間盤突出癥的治療方法http://www.102guke.net/ 網站運營人員整理發布。轉載請注明!
推薦閱讀
筆者一直很疑惑:seo是平庸還是高深?剛接觸seo的朋友們都會感覺到seo很“神秘莫測”。原因是不知道為什么自己的網站關鍵詞排名就出現在百度或google的第一頁了,事實上很多的高手也說不清自己的排名為什么就上去了吧>>>詳細閱讀
本文標題:分析蜘蛛爬取原理,讓蜘蛛愛上你
地址:http://www.xglongwei.com/a/shousuo/20120425/54907.html