7月4日消息,2012年中國計算機網絡安全年會在西安舉行,阿里巴巴云計算有限公司資深安全專家吳瀚清發表了題為“關于網站離線數據安全分析漫談”的演講。
以下為演講實錄:
我今天給大家做了一個演講是關于網站離線數據安全分析漫談,其實這個東西是我在阿里巴巴大概有三年了,一直想做的一件事情。這件事情3年下來經歷了非常多的看客,中間也夭折了幾次,但是我也堅持做下來。接下來我給大家講一講這件實是什么事,我是怎么做的。
首先介紹一下我自己,我叫吳瀚清,我在阿里七年了。寫字了一本書叫《白帽子講web安全》,在6月份,最大的網站,他的446萬個的用戶的密碼泄露,被人公布在網上,至今他沒有公布他被黑掉,他發現這一件事以后,第一個反映是他要去查漏洞,怎么查?同時還有一項研究表明,63%的人并不知他曾經被人黑過。我們如果幫過這過這些站廠,讓他們知道如何被黑掉。所以我們如果從整個公司安全角度分析看,數據分析這一塊是非常重要的,在發現問題這個環節,這個模型是一個比較經典的模型,怎么去解決安全問題,發現問題,然后去修復問題,解決辦法解決。那么在數據分析這一塊,在發現問題這個環節,有一些開源項目在這個事情,用的最多的是大家手動的分析grep,還有一些規則集。還有PHp-ids等等,這些問題都能給我們提供幫助,但是都有問題,因為他是給單個網站用的,網站的信息量不大。
我在做這件事情的時候,有時候問題,有掃描了還需要分析日志嗎?我們應該把安全問題修復掉,那么分析日志干什么,當然這是理想狀態下。當然需要,分析日志可以發現攻擊,我們可以看一下掃描可以發現什么,時間、地方、起因,掃描只能提供三個,但是分析日志可以發現6個,時間、地方、人物、起因、經過、結果,可以發現誰干的,它的IP是什么,你光說漏洞還是沒用,他要知道他進來之后干了什么。這些東西可能是需要分析日志。計算損失很重要的,現在在很多都被忽視了,所以說分析日志可以提供比掃描更多的漏洞,我們可以在上面查很多有價值的東西。為什么不適用IPS/IDS/WAF,這個也是很重要的,離線的分析數據很復雜,我們今天看到的,離線數據分析可以處理更多的數據量,因為它的時效性要求并不高,同時他是并聯、異步的。這就使得這個產品可以成為IPS和WAF的一個重要補充。下來就是滿足更復雜的需求,這是場景1,統計某XS蠕蟲感染的參數,第二個場景是現在阿里巴巴已經用了很多年的,把網站的所有請求根據URL去重,提供給掃描器進行掃描。所以在阿里做了一件非常取巧的事情,就是把網站所有的請求提出來,然后去重,然后讓掃描器直接去掃描,也可以。這里有兩個場景,但是我們還可以想到更多的場景。我們在離線分析里面可以做到多次分析,比如說我可以根據頻率去做請求,這個來源到底是什么樣的,多數的來源是什么?少數的來源是什么?像這種多次請求有關系的,就需要通過離線系統來做分析,所以說分析以后就有更復雜的分析需求。
那么遇到的最大挑戰什么?就是大數據,數據量大了以后原來看來不是很大的問題的時候都會成為很大的問題。所以在未來,可能會采用新的技術,比如說專門開發了一套傳輸日志的技術,這樣的技術我們未來可能會用,因為今天已經進入到這個時代,大數據的存儲是hds,大數據的計算是map-reduce,實時性的提高是hbase,在這樣一個環境里面,性能并不是一個瓶頸。這點和以前的分析是有很大的區別。那么未來還要考慮到實時性的提高,現在其實已經可以做到,未來可以做到更快,如果要提高實時性的話,會考慮hbase,所以我們面對的最大問題是大數據。現有流程,這個架構符號,先是日志收集,然后經過ETL,進行規則分析,最后是結果輸出,其實也可以看到這樣的一個倉庫,把日志收集,經過ETL,進行規則分析,然后進行結果的輸出。前面講了大數據以后,在阿里今天的數據請求是每天十多億,基本上半個小時分析完,但是仍有有提高的空間。所以說他的處理的能力還是有非常大的提高空間的,我們可以申請更多的資源,讓它變得更快,滿足更多的需求。所以說處理也不是非常強的,仍然有提高的空間,因為阿里是做業務,會有很多網站,把這些網站集中起來,我們一起做這個業務,會有很多的數據價值,在未來數據是很重要的。我們到底要分析什么?分析什么呢?在一開始我想的非常理想,我提出了一個假設,就是互聯網網站的請求,正常的請求都是有規律的,但是異常攻擊的請求是有明顯區別于正常請求的,如果我們把正常的區分出來,那么異常的就出來的。比如URL,可能大部分URL都是來自比較固定的來源,那么少數的就不是異常,結果這個結果就是產生了過多的噪音,你會看到每天會和這些噪音做戰斗,結果產生了過高的人力成本,最后成果并不是特別大。到第二年,又做了一個,我們就檢測一些供給類型,注冊、文件包含這些,跨站,如果在請求里面,出現了Alibaba的需求vs小網站的需求,結果第二年還是失敗的,這個時候檢測出意義其實并不是特別大,也可以看到很多請求,但是發給安全主管,會發現他拿這個東西不知道干什么,后來這個結果就造到了置疑。在阿里的網站,像文件包括這種,所以說到第三,我想到阿里的需求和其他的網站不一樣的。所以第二次嘗試是失敗的,到第三年,為中小網站提供服務,檢測什么東西,每一個漏洞新出來,比如說我們新出現一個漏洞,這些信息涉及到一個漏洞庫和知識庫的一個過程。到今天我又開始檢測具體的漏洞,每一個漏洞在網絡里面的實際攻擊情況到底是怎么樣的,到今天也算是做出來一些眉目了。其實一塊是做這個還是很好的,從實驗室做到產品是有一定距離的。做到這里還沒做完,漏洞,供給,供給成功,當我再次給老板看的時候,老板說沒用,這個價值其實意義并不是特別大,好了,把它做死,我們能夠檢測到攻擊,這些東西都是造成誤報的主要來源,有用嗎?用處不大。所以說這是一個非常關鍵的一個需求,所以在供給驗證滯后,我們的流程加兩步,就變化了規則分析再到供給驗證,再到結果分析。阿里已經做了四五年,規則分析之后,把這些信息再進去確認一遍。這個是照的一張截圖,可以看到中間的,這兩分鐘處理了很多的數據。所以說整個大數據,隨著業務的增長這個數據量可能會更多的增長。在這個過程中,我們還做了web檢測,這是一個月內的一個趨勢圖,在這個里面,每年都能發現,所以說今天的互聯網安全形勢是非常不樂觀的,其實我一開始在公司來說,也是一個意外,因為也沒想到會分析出來這么多,所以做安全的時候并不能僅僅憑想象。今天可以說能夠檢測到90%以上,甚至95%以上,有很多黑客寫的有加密的,所以說今天我們檢測這么多,實際上是非常了不起的成績,很有意思是90%以上是為了DDOS,而且發現多數webshell是ddos、掛暗鏈,掛馬。這集中行為都和地區無關,所以說現在的黑站,只需要把網站拿下來以后,他就可以完成他需要干的事情,左邊的這個是一個服務商分析,主要是webshell的一個服務商,在webshll請求量的趨勢,0.0026%為了webshell請求,因為ddos能夠知道,就相當于一種加速網絡,去下達指令的時候,不會產生一條新的請求,這其實也是一個問題。
推薦閱讀
7月4日消息,2012年中國計算機網絡安全年會今日在西安舉行,杭州迪普科技有限公司總工程師孫曉明發表了主題是“新環境下安全基礎架構研究”的演講。 杭州迪普科技有限公司總工程師孫曉明 以下為演講實錄: 我今天給大>>>詳細閱讀
本文標題:吳瀚清:網站離線數據安全分析漫談
地址:http://www.xglongwei.com/a/11/20120705/73441.html