欧洲国产视频_自拍视频在线_www.精品_国产小视频免费_日韩在线_av黄色天堂

搜索引擎的數據分析系統

作者:Lgo100 來源:未知 2012-07-12 14:31:21 閱讀 我要評論 直達商品

  數據分析系統,是搜索引擎整個工作流程的第二個系統,也就是既搜索引擎蜘蛛抓取系統的后一個系統,搜索引擎的數據分析系統主要用來處理蜘蛛抓取回來的網頁,今天呢,小強會給你詳細的講解,搜索引擎的數據分析系統的工作流程及幾個重要的知識點。我們剛剛說了,數據分析系統主要是分析蜘蛛抓取回來的內容,那么怎樣分析呢?主要涵蓋以下幾點。

  網頁結構化

  什么是網頁結構化呢?我們要知道網頁,是由html組成,搜索引擎蜘蛛最后抓取回來的,也都是html的代碼頁面,簡單的說,網頁結構化,就是刪掉html代碼,然后留下其中的內容,如下圖,圖1是網頁結構化之前,圖2就是網頁結構化之后。

  

網頁結構化之前

 

  網頁結構化之前

  

網頁結構化之后

 

  網頁結構化之后

  網頁的內容消噪

  在網頁結構后之后,依然存在著一些搜索引擎不需要的內容,比如說導航欄的菜單文字,底部的版權信息等,這些呢,都是搜索引擎不需要的,搜索引擎只需要內容,那么在這個時候就會對網頁結構化之后的內容進行消噪處理,簡單的說,消噪就是把內容之外的文字全部刪掉,比如菜單上的文字,底部版權的文字等等。

  那么搜索引擎的數據分析系統怎么判斷哪些是菜單文字哪些是版權信息呢?

  其實很簡單,就是對比,比如一個內容頁,除了內容不一樣,其他的內容幾乎一樣,比如導航,每個頁面都有導航,而且文字也一樣,版權也是,當然也會根據html的源碼去分析。

  對頁面的查重

  對頁面的查重其實很好理解,就是搜索引擎蜘蛛在抓取你這個網站所有的頁面中,用你這個頁面去對比抓取的頁面,看看內容是否有重復,如果有,那么就刪掉。

  分詞

  分詞是什么東西呢?簡單的說,就是把一句話切割成N個詞語,分詞又分為中文分詞和英文分詞,搜索引擎有一本自己的數據庫字典,里邊有好多詞語,然后對照著字典進行分詞;其中還有一點,就是在分詞的時候,會把一些無用的字去掉,比如,的、啊等等。

  頁面對應URL的分析

  這個是網頁分析系統的最后一個步驟,主要是根據一些外在因素、內在因素對這個頁面對應URL的權重值的判斷,比如外鏈、內鏈等,這個影響到這個頁面關鍵詞的排名。

  本文地址:http://www.shizhanqiang.com/2012071065.html


  推薦閱讀

  招聘類欺詐網站泛濫 360網址云安全全面攔截

會打字能上網就行,兼/全職均可,日結200-300高薪,伴隨著暑假的到來,近期類似的各種虛假招聘信息開始泛濫。360安全中心提示,這些形同天上掉餡餅式的美差,大多是不法分子精心布置的陷阱,建議廣大同學警惕網絡招聘>>>詳細閱讀


本文標題:搜索引擎的數據分析系統

地址:http://www.xglongwei.com/a/34/20120712/75213.html

頂一下

樂購科技部分新聞及文章轉載自互聯網,供讀者交流和學習,若有涉及作者版權等問題請及時與我們聯系,以便更正、刪除或按規定辦理。感謝所有提供資訊的網站,歡迎各類媒體與樂購科技進行文章共享合作。

網友點評
我的評論: 人參與評論
驗證碼: 匿名回答
網友評論(點擊查看更多條評論)
友情提示: 登錄后發表評論,可以直接從評論中的用戶名進入您的個人空間,讓更多網友認識您。
自媒體專欄

評論

熱度

主站蜘蛛池模板: 秋月爱莉在线观看无修版 | 久草视频观看 | 黄毛片免费 | 日本成人在线网站 | 日本一区三区 | 99久久精品无码一区二区毛片 | 久久一本精品久久精品66 | 六月激情网 | 一级aaa级毛片午夜在线播放 | 在线观看日本免费不卡 | 久久久久久国产a免费观看黄色大片 | 欧美视频 亚洲视频 | jizz18日本人在线播放 | 久久www免费人成_看 | 日韩黄| 日韩经典一区 | 亚洲一级毛片免费在线观看 | 国产一区二区三区久久精品 | 国产精品久久久久久搜索 | 91丁香亚洲综合社区 | 97夜色| 中文字幕天堂在线 | 亚洲成人在线网 | 黑人性受xxxx黑人xyx性爽 | 岛国在线123456 | 日日夜夜操操操 | 欧美一区二区三区激情啪啪 | 在线播放日本爽快片 | 国产精品毛片大码女人 | 两个人在线观看www视频 | 国产日b视频 | 黄片毛片免费观看 | 人人射人人舔 | 狠狠激情五月综合婷婷俺 | 久久青娱乐 | 青青视频国产在线播放 | 欧美国产亚洲18 | 全免费a级毛片免费毛视频 全免费观看a级毛片 | 亚洲日本香蕉 | 欧美日韩一区视频 | 看片午夜 |