1.其次,如果我們能夠通過對以往收集信息的分析,預先發現重復網頁,在今后的網頁收集過程中就可以避開這些網頁,從而提高網頁的收集速度。有研究表明重復網頁隨著時間不發生太大變化,所以這種從重復頁面集合中選擇部分頁面進行索引是有效的。2.從另外一個角度看,如果用戶點擊了一個死鏈接,那么可以將用戶引導到一個內容相同頁面,這樣可以有效地增加用戶的檢索體驗。因而近似重復網頁的及時發現有利于改善搜索引擎系統的服務質量。
3.另外,如果某個網頁的鏡像度較高,往往是其內容比較受歡迎的一種間接體現也就預示著該網頁相對重要,在收集網頁時應賦予它較高的優先級,而當搜索引擎系統在響應用戶的檢索請求并對輸出結果排序時,應該賦予它較高的權值。
4.首先,如果我們能夠找出這些重復網頁并從數據庫中去掉,就能夠節省一部分存儲空間,進而可以利用這部分空間存放更多的有效網頁內容,同時也提高了搜索引擎的搜索質量和用戶體驗。
實際工作的搜索引擎往往是在爬蟲階段進行近似重復檢測的,下圖給出了近似重復檢測任務在搜索引擎中所處流程的說明。當爬蟲新抓取到網頁時,需要和已經建立到索引內的網頁進行重復判斷,如果判斷是近似重復網頁,則直接將其拋棄,如果發現是全新的內容,則將其加入網頁索引中。
推薦閱讀
>>>詳細閱讀
本文標題:網站優化刪除重復網頁有利搜索引擎爬行
地址:http://www.xglongwei.com/a/34/20131021/291446.html