沒錯,Hadoop已經被作為一種數據分析工具來被人們使用,這種使用應歸功于Hive和Pig等姊妹項目;但Hadoop是一個“批處理”工具,這意味著數據請求需要相當長的一段時間才能完成。而與此相比,Drill的設計目的則是效法Dremel,對海量數據進行幾乎實時的分析。據谷歌基礎設施專家烏爾斯·霍澤爾稱,Dremel能在大約三秒鐘時間里處理1拍字節的數據。
“你擁有一種類似于SQL的語言,能讓制定專設的查詢請求變得非常簡單——而且,你不需要做任何編程工作,只需將查詢請求輸入到命令行里即可。”霍澤爾在上個月向我們說到,他所指的SQL是Structured Query Language,這是傳統數據庫用來處理數量少得多的數據的一種語言。
希蘭表示,Drill的設計目的是為Hadoop提供補充,而并非取代后者。他指出,就轉換一個龐大的數據集而言,Hadoop是一種最好用的工具。舉例來說,你可以通過海量的網頁集合來建設一個搜索索引;但Drill則允許你從同一個數據集中非常迅速地抽取一小部分信息。
“能對一拍字節的數據進行運算,將其變成新的數據。”希蘭說道。“通過Dremel或是Drill,你能對一拍字節的數據進行分析,然后得出一拍字節或少于一拍字節的數據。”他表示,MapR的一些用戶已在將該公司專有版本的Hadoop平臺與谷歌在線服務BigQuery配合使用,后一種服務能讓谷歌以外的公司使用Dremel。
希蘭稱,Drill這個名稱是由一名谷歌員工提議的,MapR曾與這名員工合作開發BigQuer。MapR的聯合創始人斯萊瓦斯也曾在谷歌供職,當時他曾是谷歌搜索基礎設施建設團隊的成員之一。就谷歌官方而言,這家公司并未正式參與Drill項目。通過這些龐大的基礎設施平臺,谷歌傾向于去做自己的事情。
MapR也一直都以做自己的事情而著稱,但這一次則并非如此。
推薦閱讀
做個小網站,賣點顯示廣告,就算創業?圖樣,圖森破(too young,too simple) 2007年,我創辦了一個免費的Blogspot網站,專攻游戲領域。不到6個月,我通過谷歌Adsense和其他一些渠道就能每月賺3800美元。 一年后,網站>>>詳細閱讀
本文標題:谷歌大數據工具衍生新開源平臺Drill
地址:http://www.xglongwei.com/a/22/20120822/82295.html