我們的未來,會掌握在大數據手里嗎?
只要遇到無法理解的事情,我們就會說那是偶然,似乎這種表面上的偶然行為推動了歷史的演進,而事情發展之迂回曲折似乎如擲骰子一般。但這種偶然真正意味著什么?
而法國數學家泊松指出,一旦我們承認人類行為是最隨機的,它突然之間就可以被預測了。
悖論嗎?其實有一個最適合說明的例子,正是擲骰子:雖然每次擲的點數無法預測,但整體是有規律可循的。也就是,大約每擲5到7次就會出現一次6,而擲100次都不出現6的可能性幾乎為零。
泊松的理論即為概率論中著名的泊松分布,而著名物理學家巴拉巴西則在《爆發》一書中進一步將觀點明確為“人類行為93%是可以預測的”。
那么,當我們的電子郵件都在服務商的日志中;我們的通話記錄、行蹤都在運營商的存儲上;我們買了什么東西、品味以及支付能力都在信用卡記錄里;我們所有的微博、空間、個人主頁,干脆展示在網站上……
這些記錄的存在引爆了個人隱私危機,但它同時也創造了前所未有的歷史機遇——它第一次毫無偏見地為我們提供了成千上萬人、而不是少數人的詳細行為記錄。借助這些數據和強大的計算技術,物理學家、心理學家以及經濟學家得以對某些問題仔細研究。他們有充分的證據證明,人類的大部分行為都受制于規律,而且它們的可重現性和可預測性與自然科學不相上下。
這些發現并不只是科學家在紙上談兵,其中一些模型和原理已經價值數億,像谷歌和雅虎這樣以追蹤人類行為為商業模式的公司都身價不菲。可以說,它們顛倒了乾坤。在過去,如果想了解人類的行為和想法,你必須去考個心理學家證書,但現在,你可能需要先拿到計算機專業的學位。
推而廣之,“無論什么事,如果不斷收集材料,積之十年,總可成一學者”,每天進行的事情將成為這種“爆發”的基礎。這意味著,時間是我們最寶貴的不可再生資源,如果我們尊重它,就必須剔除無關緊要的事;只有優先清單確定,冪律規律和你所期待的爆發,才會不可避免的出現。
同樣,“歷史不會重演,卻自有其韻律”,如果能洞悉其中的規律,那么我們的未來,或許就掌握在大數據的手中。

《爆發》作者艾伯特·拉斯洛·巴拉巴西(Albert-László Barabási)
本文后半部分為書摘,節選自湛廬文化《爆發——大數據時代預見未來的新思維》,作者為全球復雜網絡研究權威、馮·諾依曼獎獲得者艾伯特·拉斯洛·巴拉巴西。
作者或許并不為廣大讀者熟知,電信市場營銷專家王煜全甚至在微博上發問:格拉德威爾的《引爆點》人人能懂,成了超級暢銷書;凱文凱利的《失控》多數人讀不懂,但人人奉為經典;巴拉巴西才是真正理解復雜網絡的專家,他的《鏈接》同樣系統而宏大,卻沒什么名氣,這是為什么呢?有網友解釋為網絡時代的快餐文化,亦有人認為這是因為巴拉巴西的寫作特點:大量舉例描述,甚至看起來像小說,結論則需要概括才能得出。
@創事記 在此將書中主要觀點列于以上,并附書中內容精選:
泊松的悖論
泊松指出,一旦我們承認人類行為是最隨機的,它突然之間就可以被預測了。
這似乎是個悖論:如果不可預測性是指偶然性,那么偶然性又怎么能預測呢?答案很簡單:泊松所謂的預測跟我們日常生活中追求的有所不同。跟伊斯特凡·泰勒格迪對教皇十字軍的未來所做的預言不同,他的手法更像愛因斯坦推導原子運動規律。愛因斯坦知道推測出單個原子的運動軌跡是不可能的,所以轉而假設原子的運動是隨機的,然后推導出原子離釋放點的距離遵循擴散理論。
同樣,泊松根本沒去想陪審員是否做出了正確裁定,而是假設每個陪審員都像擲骰子那樣投票:他們大部分時間是對的,但偶爾會出錯,而且我們永遠無法知道他們什么時候是對的,什么時候是錯的。在這一假設的前提下,泊松利用定罪率的統計數據推導出了整個陪審系統的可靠性。
雖然下次擲的點數是個謎,但在這種偶然性中還是存在某種神奇的規律。盡管存在明顯的規律,但泊松過程實際上是一個再隨意不過的過程了,因為它就是一系列偶然事件的累計。因而,偏離泊松預測常常代表某種隱藏的秩序,它們揭示了一種有待發現的更深層次的規律或模型。
誠然,我們觀察到的很多現象都絕非偶然,比如行星運動、亙古不變的日夜交替等。但另外一些現象,比如天氣,看起來似乎純粹是偶然。不過,正如理查森極力指出的,大氣受制于一系列規律和方程式。現在,各地的氣象學家都能通過計算成功預測天氣情況。此前,人們認為很多現象,如日食、洪災、旱災都是受神秘的造物主支配。但現在這些現象都能夠被人類預測。這告訴我們,偏離了隨機性通常意味著某種基本規律有待人類發現。
大數據時代的大機遇
我們正處于一種不斷變化但卻日趨精密的被監視狀態中。事實上,現在我們的一舉一動都能在某個數據庫中找到線索。
我們的電子郵件都保存在電郵供應商的日志文件中;我們的通話記錄都被加上時間標記備份在電話公司的大容量硬盤上;我們何時何地買了什么東西,我們的喜好、品味以及支付能力都被信用卡提供商編目歸檔;我們所有的個人網頁、空間以及Facebook文件,還有博客的信息都被保存在多個服務器上;我們的即時行蹤完全被手機供應商掌握;我們的長相和穿著打扮都被安裝在各大商場和街角的攝像頭捕捉并記錄。雖然我們通常選擇不去多想,但事實上我們的生活完全能被這些雨后春筍般出現的數據庫所記錄的信息串聯起來。
毫無疑問,正是這些記錄的存在引爆了個人隱私危機,而這一問題的嚴重性再怎么夸大也不為過。然而,它同時也創造了一個歷史機遇——它第一次毫無偏見地為我們提供了成千上萬人,而不是少數人的詳細行為記錄。在過去幾年里,這些數據庫為各大實驗室提供了不少幫助,使很多計算機學家、物理學家、數學家、社會學家、心理學家以及經濟學家得以在強大的計算機和新技術的支持下對某些問題進行仔細研究。
推薦閱讀
(速途網專欄 作者:薛勵凡)論壇推廣是網站推廣中一個很好的推廣方法,幾乎所有的營銷訴求都可以通過論壇傳播得到有效的實現。尤其是在網站剛開始的時候,非常有效果的網絡營銷手段。我們常常利用論壇這種網絡交流的平>>>詳細閱讀
本文標題:大數據時代的“爆發”論:上帝從不擲骰子
地址:http://www.xglongwei.com/a/shuju/20120911/84615.html