大數據時代:小數據 大能量

責任編輯:editor006

2014-01-21 06:01:00

來源:企業(yè)網D1Net

原創(chuàng)

在大數據時代下,數據已經變得十分常見,與此同時 一些小數據也經常被人們忽視,原因是人們沒有現(xiàn)成的概念去定義和解釋它們。可是,沒有小數據,大數據管理會充滿陷阱。小數據為主,大數據為仆,這是數據管理的正道

《企業(yè)網D1Net》1月21日訊

在大數據時代下,數據已經變得十分常見,與此同時 一些小數據也經常被人們忽視,原因是人們沒有現(xiàn)成的概念去定義和解釋它們??墒?,沒有小數據,大數據管理會充滿陷阱。小數據為主,大數據為仆,這是數據管理的正道。

大數據管理通過大量數據采礦,找出潛在的變量和它們之間的因果聯(lián)系,這樣企業(yè)可以有針對性地生產和營銷。相比之下,小數據泛指零星的弱信號。它們往往被當作沒有規(guī)范、似乎隨機的偏差或噪音。

被過濾和忽視是小數據的命運,原因是人們沒有現(xiàn)成的概念去定義和解釋它們??墒?,沒有小數據,大數據管理會充滿陷阱。

小數據為主,大數據為仆,這是數據管理的正道。

大數據的陷阱

春節(jié)就要到了。假如你是一位出車千次無事故的好司機,恰好在朋友家喝了點酒,警察也過年下班了,于是你堅持自己開車回家,盤算著出問題的概率也不過千分之一吧。如果這樣算,你就犯了一個取樣錯誤,因為那一千次出車,你沒喝酒,它們不能和這次混在一起計算。這也是大數據“采礦”常犯的錯。

只要有超大樣本和超多變量,我們都可能找到無厘頭式的相關性。它完全符合統(tǒng)計方法的嚴格要求,但二者之間并沒有因果關系。美國政府每年公布4.5萬類經濟數據。如果你要找失業(yè)率和利率受什么變量影響,你可以羅列10億個假設。我自己的研究經驗也顯示,只要你反復嘗試不同的模型,上千次后,你一定可以找到統(tǒng)計學意義上成立的相關性。把相關性當作因果關系,這是大數據采礦的另一個陷阱。

我們說,三尺深的水池能淹死人,因為三尺只是平均值。忽略極值,采用平均值,它是大數據采礦第三個常見的陷阱。

博弈論創(chuàng)始人之一,諾伊曼(John von Neumann)曾經戲言:有四個參數,我能畫頭大象,再加一個,我讓大象的鼻子豎起來!大數據“采礦”可能給出新穎的相關性。

但是,脫離了問題的情境,它不但不能保證因果關系,還可能誤導決策。

小數據里藏著金鑰匙

巴恩斯利(Roger Barnsley)帶他的孩子去我教書的萊橋市參加比賽時發(fā)現(xiàn),摩羯座、水瓶座、雙魚座的孩子天生就是打冰球的,否則怎么會雙方隊員的生日大多在1月、2月和3月?帶著心理學家的好奇,他研究了加拿大成人隊的隊員生日,發(fā)現(xiàn)同樣的規(guī)律。不過,巴恩斯利還沒依賴大數據到迷信的程度。

深入調查后他發(fā)現(xiàn),加拿大少年隊劃分組別以1月1日為界。因此,在同一年齡組,那些1~3月出生的孩子自然有生理發(fā)育上的優(yōu)勢。因為是層層優(yōu)選、優(yōu)訓,有起點優(yōu)勢的孩子就可能不斷成長,主導每個階段的冰球隊伍。只有明白“年齡劃分日”這個小數據,奇異的現(xiàn)象才有科學的解釋。

羅列大量事例,在《偏差》中,格萊德威爾(Malcolm Gladwell)證明小數據的關鍵解碼作用。

小細節(jié)解鎖大問題。類似的小數據決定作用出現(xiàn)在不同的現(xiàn)象中。依據大數據,舊金山地區(qū)衛(wèi)生部門根據同性戀人群肝病發(fā)病率上升預計艾滋病例也會上升,但這兩種疾病流行正相關的預測失敗。深入調查發(fā)現(xiàn),同性戀對艾滋病越來越持平常心。他們利用新的社交網絡,主動張貼自己的情況,避免交叉感染。這次,又是關于行為和動機的小數據解釋了大數據看不到的規(guī)律。

小數據這把金鑰匙難找,因為它們基本上是弱信號,出現(xiàn)的頻率低,往往埋沒在偏差值中,容易被忽視。同樣難的是,它們過去沒有規(guī)律性地出現(xiàn)過,人們不熟悉。對不熟悉的現(xiàn)象,人們心理上錯把它們當作不大可能的現(xiàn)象。因此,決策時,人們容易把弱信號當作背景噪音過濾掉了。例如,假如恐怖分子只學開飛機,不學降落這個弱信號被關注,美國反恐歷史可能要重寫。

如何正確使用小數據?胡巴德(Douglas Hubbard)建議三種方法:

1)不求完美,只求不斷接近。古希臘人俄如多斯(Eratosthenes)利用兩地中午日光正射和斜射的角度與距離估算出第一個地球周長。誤差很大,但那是一個跨越式的認知進步。

2)找“墊腳石”知識,用類比法提高認識。物理學家費米問學生,芝加哥城里有多少調琴師?他教學生學會從人口數、家庭數和擁有鋼琴的家庭比例估算開始,推演到鋼琴數量和調琴師大約的比例,再得出調琴師的估值。要點在于不囿于數據限制,學會用已知代換無知,推演估算值。

3)不要簡單化前提條件,但要力求簡單模式。9歲的羅薩(Emily Rosa)和她媽媽一起看電視介紹流行的“氣場療法”。羅薩把測試氣場當作學校的一個科學項目。用兩塊遮擋紙板、幾個直接問題,她采訪和測試了29位氣功理療師,證明氣場至多只是心理作用。羅薩的簡潔實驗設計被美國醫(yī)學雜志(JAMA)刊載。她也成為雜志最年輕的作者。

求小步完善、類比借鑒和從簡單模型開始,這三步也是對“貝爾斯定理”(Bayes Theorem)最好的運用。有條件概率分布的“貝爾斯定理”是掌握小數據的核心。

主與仆

關于復雜系統(tǒng),美國的圣塔菲研究所羅列三個典型特征:多變量、相互作用,并同時發(fā)生。據此,天氣預報是最復雜的數據管理了。

1916年,德國人理查森(Lewis Fry Richardson)嘗試著把大數據化小,把整個德國的天氣分割成縱橫交錯的小矩陣。這樣每個格子里的天氣對周邊的影響就能簡化了解。層層推進,他試圖得出更靠譜的天氣預測。理查森沒有成功,因為當時的計算力不足。

到1950年,諾爾曼將電腦計算和理查森的方法整合在一起。結果,我們有了越來越可靠的天氣預報。

理查森的小數據價值在于他對氣候現(xiàn)象深刻的理解,并提煉出關鍵要素。諾爾曼的大數據貢獻在于精確運算關鍵要素的動態(tài)運行形勢和方向。二者結合,我們才有對氣候的預報能力。

D1Net評論:

在大數據時代下,如果緊把眼光放在大數據身上,而忽視小數據的存在,是非常錯誤的,小數據也蘊含大能量,只要整合大、小數據管理的要點和優(yōu)點,才能發(fā)揮數據的真正價值。

鏈接已復制,快去分享吧

企業(yè)網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號