數(shù)據(jù)管理:小數(shù)據(jù)為主,大數(shù)據(jù)為仆

責(zé)任編輯:editor004

2014-01-20 10:40:17

摘自:第一財(cái)經(jīng)日?qǐng)?bào)

被過(guò)濾和忽視是小數(shù)據(jù)的命運(yùn),原因是人們沒(méi)有現(xiàn)成的概念去定義和解釋它們。小數(shù)據(jù)這把金鑰匙難找,因?yàn)樗鼈兓旧鲜侨跣盘?hào),出現(xiàn)的頻率低,往往埋沒(méi)在偏差值中,容易被忽視。

[ 被過(guò)濾和忽視是小數(shù)據(jù)的命運(yùn),原因是人們沒(méi)有現(xiàn)成的概念去定義和解釋它們??墒?,沒(méi)有小數(shù)據(jù),大數(shù)據(jù)管理會(huì)充滿陷阱。小數(shù)據(jù)為主,大數(shù)據(jù)為仆,這是數(shù)據(jù)管理的正道 ]

大數(shù)據(jù)管理通過(guò)大量數(shù)據(jù)采礦,找出潛在的變量和它們之間的因果聯(lián)系,這樣企業(yè)可以有針對(duì)性地生產(chǎn)和營(yíng)銷。相比之下,小數(shù)據(jù)泛指零星的弱信號(hào)。它們往往被當(dāng)作沒(méi)有規(guī)范、似乎隨機(jī)的偏差或噪音。

被過(guò)濾和忽視是小數(shù)據(jù)的命運(yùn),原因是人們沒(méi)有現(xiàn)成的概念去定義和解釋它們??墒?,沒(méi)有小數(shù)據(jù),大數(shù)據(jù)管理會(huì)充滿陷阱。

小數(shù)據(jù)為主,大數(shù)據(jù)為仆,這是數(shù)據(jù)管理的正道。

大數(shù)據(jù)的陷阱

春節(jié)就要到了。假如你是一位出車千次無(wú)事故的好司機(jī),恰好在朋友家喝了點(diǎn)酒,警察也過(guò)年下班了,于是你堅(jiān)持自己開(kāi)車回家,盤算著出問(wèn)題的概率也不過(guò)千分之一吧。如果這樣算,你就犯了一個(gè)取樣錯(cuò)誤,因?yàn)槟且磺Т纬鲕?,你沒(méi)喝酒,它們不能和這次混在一起計(jì)算。這也是大數(shù)據(jù)“采礦”常犯的錯(cuò)。

從1967年第一屆美國(guó)超級(jí)碗杯橄欖球賽到1997年第三十一屆,只要NFL聯(lián)賽出線隊(duì)贏,當(dāng)年的股票就大漲14%以上,AFL聯(lián)賽出線隊(duì)贏,則至少大跌10%。如果你按照這個(gè)指標(biāo)來(lái)買賣股票,就要小心了!1998年,丹佛野馬隊(duì)(AFL)贏,當(dāng)年股市大漲28%;2008年紐約巨人(11.08, -0.02, -0.18%)隊(duì)(NFL)贏,股市不僅大跌35%,還引發(fā)次貸金融危機(jī)。

只要有超大樣本和超多變量,我們都可能找到無(wú)厘頭式的相關(guān)性。它完全符合統(tǒng)計(jì)方法的嚴(yán)格要求,但二者之間并沒(méi)有因果關(guān)系。美國(guó)政府每年公布4.5萬(wàn)類經(jīng)濟(jì)數(shù)據(jù)。如果你要找失業(yè)率和利率受什么變量影響,你可以羅列10億個(gè)假設(shè)。我自己的研究經(jīng)驗(yàn)也顯示,只要你反復(fù)嘗試不同的模型,上千次后,你一定可以找到統(tǒng)計(jì)學(xué)意義上成立的相關(guān)性。把相關(guān)性當(dāng)作因果關(guān)系,這是大數(shù)據(jù)采礦的另一個(gè)陷阱。

我們說(shuō),三尺深的水池能淹死人,因?yàn)槿咧皇瞧骄怠:雎詷O值,采用平均值,它是大數(shù)據(jù)采礦第三個(gè)常見(jiàn)的陷阱。

博弈論創(chuàng)始人之一,諾伊曼(John von Neumann)曾經(jīng)戲言:有四個(gè)參數(shù),我能畫頭大象,再加一個(gè),我讓大象的鼻子豎起來(lái)!大數(shù)據(jù)“采礦”可能給出新穎的相關(guān)性。

但是,脫離了問(wèn)題的情境,它不但不能保證因果關(guān)系,還可能誤導(dǎo)決策。

小數(shù)據(jù)里藏著金鑰匙

巴恩斯利(Roger Barnsley)帶他的孩子去我教書的萊橋市參加比賽時(shí)發(fā)現(xiàn),摩羯座、水瓶座、雙魚(yú)座的孩子天生就是打冰球的,否則怎么會(huì)雙方隊(duì)員的生日大多在1月、2月和3月?帶著心理學(xué)家的好奇,他研究了加拿大成人隊(duì)的隊(duì)員生日,發(fā)現(xiàn)同樣的規(guī)律。不過(guò),巴恩斯利還沒(méi)依賴大數(shù)據(jù)到迷信的程度。

深入調(diào)查后他發(fā)現(xiàn),加拿大少年隊(duì)劃分組別以1月1日為界。因此,在同一年齡組,那些1~3月出生的孩子自然有生理發(fā)育上的優(yōu)勢(shì)。因?yàn)槭菍訉觾?yōu)選、優(yōu)訓(xùn),有起點(diǎn)優(yōu)勢(shì)的孩子就可能不斷成長(zhǎng),主導(dǎo)每個(gè)階段的冰球隊(duì)伍。只有明白“年齡劃分日”這個(gè)小數(shù)據(jù),奇異的現(xiàn)象才有科學(xué)的解釋。

羅列大量事例,在《偏差》中,格萊德威爾(Malcolm Gladwell)證明小數(shù)據(jù)的關(guān)鍵解碼作用。

小細(xì)節(jié)解鎖大問(wèn)題。類似的小數(shù)據(jù)決定作用出現(xiàn)在不同的現(xiàn)象中。依據(jù)大數(shù)據(jù),舊金山地區(qū)衛(wèi)生部門根據(jù)同性戀人群肝病發(fā)病率上升預(yù)計(jì)艾滋病例也會(huì)上升,但這兩種疾病流行正相關(guān)的預(yù)測(cè)失敗。深入調(diào)查發(fā)現(xiàn),同性戀對(duì)艾滋病越來(lái)越持平常心。他們利用新的社交網(wǎng)絡(luò),主動(dòng)張貼自己的情況,避免交叉感染。這次,又是關(guān)于行為和動(dòng)機(jī)的小數(shù)據(jù)解釋了大數(shù)據(jù)看不到的規(guī)律。

小數(shù)據(jù)這把金鑰匙難找,因?yàn)樗鼈兓旧鲜侨跣盘?hào),出現(xiàn)的頻率低,往往埋沒(méi)在偏差值中,容易被忽視。同樣難的是,它們過(guò)去沒(méi)有規(guī)律性地出現(xiàn)過(guò),人們不熟悉。對(duì)不熟悉的現(xiàn)象,人們心理上錯(cuò)把它們當(dāng)作不大可能的現(xiàn)象。因此,決策時(shí),人們?nèi)菀装讶跣盘?hào)當(dāng)作背景噪音過(guò)濾掉了。例如,假如恐怖分子只學(xué)開(kāi)飛機(jī),不學(xué)降落這個(gè)弱信號(hào)被關(guān)注,美國(guó)反恐歷史可能要重寫。

如何正確使用小數(shù)據(jù)?胡巴德(Douglas Hubbard)建議三種方法:

1)不求完美,只求不斷接近。古希臘人俄如多斯(Eratosthenes)利用兩地中午日光正射和斜射的角度與距離估算出第一個(gè)地球周長(zhǎng)。誤差很大,但那是一個(gè)跨越式的認(rèn)知進(jìn)步。

2)找“墊腳石”知識(shí),用類比法提高認(rèn)識(shí)。物理學(xué)家費(fèi)米問(wèn)學(xué)生,芝加哥城里有多少調(diào)琴師?他教學(xué)生學(xué)會(huì)從人口數(shù)、家庭數(shù)和擁有鋼琴的家庭比例估算開(kāi)始,推演到鋼琴數(shù)量和調(diào)琴師大約的比例,再得出調(diào)琴師的估值。要點(diǎn)在于不囿于數(shù)據(jù)限制,學(xué)會(huì)用已知代換無(wú)知,推演估算值。

3)不要簡(jiǎn)單化前提條件,但要力求簡(jiǎn)單模式。9歲的羅薩(Emily Rosa)和她媽媽一起看電視介紹流行的“氣場(chǎng)療法”。羅薩把測(cè)試氣場(chǎng)當(dāng)作學(xué)校的一個(gè)科學(xué)項(xiàng)目。用兩塊遮擋紙板、幾個(gè)直接問(wèn)題,她采訪和測(cè)試了29位氣功理療師,證明氣場(chǎng)至多只是心理作用。羅薩的簡(jiǎn)潔實(shí)驗(yàn)設(shè)計(jì)被美國(guó)醫(yī)學(xué)雜志(JAMA)刊載。她也成為雜志最年輕的作者。

求小步完善、類比借鑒和從簡(jiǎn)單模型開(kāi)始,這三步也是對(duì)“貝爾斯定理”(Bayes Theorem)最好的運(yùn)用。有條件概率分布的“貝爾斯定理”是掌握小數(shù)據(jù)的核心。

主與仆

關(guān)于復(fù)雜系統(tǒng),美國(guó)的圣塔菲研究所羅列三個(gè)典型特征:多變量、相互作用,并同時(shí)發(fā)生。據(jù)此,天氣預(yù)報(bào)是最復(fù)雜的數(shù)據(jù)管理了。

1916年,德國(guó)人理查森(Lewis Fry Richardson)嘗試著把大數(shù)據(jù)化小,把整個(gè)德國(guó)的天氣分割成縱橫交錯(cuò)的小矩陣。這樣每個(gè)格子里的天氣對(duì)周邊的影響就能簡(jiǎn)化了解。層層推進(jìn),他試圖得出更靠譜的天氣預(yù)測(cè)。理查森沒(méi)有成功,因?yàn)楫?dāng)時(shí)的計(jì)算力不足。

到1950年,諾爾曼將電腦計(jì)算和理查森的方法整合在一起。結(jié)果,我們有了越來(lái)越可靠的天氣預(yù)報(bào)。

理查森的小數(shù)據(jù)價(jià)值在于他對(duì)氣候現(xiàn)象深刻的理解,并提煉出關(guān)鍵要素。諾爾曼的大數(shù)據(jù)貢獻(xiàn)在于精確運(yùn)算關(guān)鍵要素的動(dòng)態(tài)運(yùn)行形勢(shì)和方向。二者結(jié)合,我們才有對(duì)氣候的預(yù)報(bào)能力。

只要整合大、小數(shù)據(jù)管理的要點(diǎn)和優(yōu)點(diǎn),我們就能逐漸完善認(rèn)知模型,辨別信號(hào)和噪音。就像統(tǒng)計(jì)學(xué)家博可斯(George Box)所言:所有的模型都是錯(cuò)的,但有些仍有用。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)