數據分析系統,是搜索引擎整個工作流程的第二個系統,也就是既搜索引擎蜘蛛抓取系統的后一個系統,搜索引擎的數據分析系統主要用來處理蜘蛛抓取回來的網頁,今天呢,小強會給你詳細的講解,搜索引擎的數據分析系統的工作流程及幾個重要的知識點。我們剛剛說了,數據分析系統主要是分析蜘蛛抓取回來的內容,那么怎樣分析呢?主要涵蓋以下幾點。
網頁結構化
什么是網頁結構化呢?我們要知道網頁,是由html組成,搜索引擎蜘蛛最后抓取回來的,也都是html的代碼頁面,簡單的說,網頁結構化,就是刪掉html代碼,然后留下其中的內容,如下圖,圖1是網頁結構化之前,圖2就是網頁結構化之后。

網頁結構化之前

網頁結構化之后
網頁的內容消噪
在網頁結構后之后,依然存在著一些搜索引擎不需要的內容,比如說導航欄的菜單文字,底部的版權信息等,這些呢,都是搜索引擎不需要的,搜索引擎只需要內容,那么在這個時候就會對網頁結構化之后的內容進行消噪處理,簡單的說,消噪就是把內容之外的文字全部刪掉,比如菜單上的文字,底部版權的文字等等。
那么搜索引擎的數據分析系統怎么判斷哪些是菜單文字哪些是版權信息呢?
其實很簡單,就是對比,比如一個內容頁,除了內容不一樣,其他的內容幾乎一樣,比如導航,每個頁面都有導航,而且文字也一樣,版權也是,當然也會根據html的源碼去分析。
對頁面的查重
對頁面的查重其實很好理解,就是搜索引擎蜘蛛在抓取你這個網站所有的頁面中,用你這個頁面去對比抓取的頁面,看看內容是否有重復,如果有,那么就刪掉。
分詞
分詞是什么東西呢?簡單的說,就是把一句話切割成N個詞語,分詞又分為中文分詞和英文分詞,搜索引擎有一本自己的數據庫字典,里邊有好多詞語,然后對照著字典進行分詞;其中還有一點,就是在分詞的時候,會把一些無用的字去掉,比如,的、啊等等。
頁面對應URL的分析
這個是網頁分析系統的最后一個步驟,主要是根據一些外在因素、內在因素對這個頁面對應URL的權重值的判斷,比如外鏈、內鏈等,這個影響到這個頁面關鍵詞的排名。
本文地址:http://www.shizhanqiang.com/2012071065.html