本文原載英國《金融時(shí)報(bào)》網(wǎng)站,原標(biāo)題:Big data: are we making a big mistake,貌似我看到的時(shí)候已經(jīng)有點(diǎn)晚了,但還是分享下吧。因?yàn)樗_實(shí)討論了我最近所思考的一些問題,是一篇思辨的文章。如果你以前沒了解過大數(shù)據(jù),這又可以看作一篇入門文章。
這篇文章只算一家之言,因?yàn)橘|(zhì)疑總比證實(shí)更簡單,但大數(shù)據(jù)現(xiàn)在炙手可熱,這些反面的意見,如果作為談資收藏起來,也是不錯,說不定把妹子的時(shí)候會有妙用。
by信海光微天下
大數(shù)據(jù)是對于大規(guī)?,F(xiàn)象的一種模糊的表達(dá)。這一術(shù)語如今已經(jīng)被企業(yè)家、科學(xué)家、政府和媒體炒得過熱。
五年前,谷歌的一個研究小組在全球頂級的科學(xué)雜志《自然》上宣布了一個令人矚目的成果。該小組可以追蹤美國境內(nèi)流感的傳播趨勢,而這一結(jié)果不依賴于任何醫(yī)療檢查。他們的追蹤速度甚至比疾控中心(CDC)要快的多。谷歌的追蹤結(jié)果只有一天的延時(shí),而CDC則需要匯總大量醫(yī)師的診斷結(jié)果才能得到一張傳播趨勢圖,延時(shí)超過一周。谷歌能算的這么快,是因?yàn)樗麄儼l(fā)現(xiàn)當(dāng)人們出現(xiàn)流感癥狀的時(shí)候,往往會跑到網(wǎng)絡(luò)上搜索一些相關(guān)的內(nèi)容。
“谷歌流感趨勢”不僅快捷、準(zhǔn)確、成本低廉,而且沒有使用什么理論。谷歌的工程師們不用費(fèi)勁的去假設(shè)哪些搜索關(guān)鍵字(比如”流感癥狀“或者”我身邊的藥店“)跟感冒傳染有相關(guān)性。他們只需要拿出來自己網(wǎng)站上5000萬個最熱門的搜索字,然后讓算法來做選擇就行了。
谷歌流感趨勢的成功,很快就成為了商業(yè)、技術(shù)和科學(xué)領(lǐng)域中最新趨勢的象征。興奮的媒體記者們不停的在問,谷歌給我們帶來了什么新的科技?
在這諸多流行語中,“大數(shù)據(jù)”是一個含糊的詞匯,常常出現(xiàn)于各種營銷人員的口中。一些人用這個詞來強(qiáng)調(diào)現(xiàn)有數(shù)據(jù)量的驚人規(guī)模——大型粒子對撞機(jī)每年會產(chǎn)生15PB的數(shù)據(jù),相當(dāng)于你最喜歡的一首歌曲重復(fù)演奏15000年的文件大小。
然而在“大數(shù)據(jù)”里,大多數(shù)公司感興趣的是所謂的“現(xiàn)實(shí)數(shù)據(jù)”,諸如網(wǎng)頁搜索記錄、信用卡消費(fèi)記錄和移動電話與附近基站的通信記錄等等。谷歌流感趨勢就是基于這樣的現(xiàn)實(shí)數(shù)據(jù),這也就是本文所討論的一類數(shù)據(jù)。這類數(shù)據(jù)集甚至比對撞機(jī)的數(shù)據(jù)規(guī)模還要大(例如facebook),更重要的是雖然這類數(shù)據(jù)的規(guī)模很大,但卻相對容易采集。它們往往是由于不同的用途被搜集起來并雜亂的堆積在一起,而且可以實(shí)時(shí)的更新。我們的通信、娛樂以及商務(wù)活動都已經(jīng)轉(zhuǎn)移到互聯(lián)網(wǎng)上,互聯(lián)網(wǎng)也已經(jīng)進(jìn)入我們的手機(jī)、汽車甚至是眼鏡。因此我們的整個生活都可以被記錄和數(shù)字化,這些在十年前都是無法想象的。
大數(shù)據(jù)的鼓吹者們提出了四個令人興奮的論斷,每一個都能從谷歌流感趨勢的成功中印證:
1) 數(shù)據(jù)分析可以生成驚人準(zhǔn)確的結(jié)果;
2) 因?yàn)槊恳粋€數(shù)據(jù)點(diǎn)都可以被捕捉到, 所以可以徹底淘汰過去那種抽樣統(tǒng)計(jì)的方法;
3) 不用再尋找現(xiàn)象背后的原因,我們只需要知道兩者之間有統(tǒng)計(jì)相關(guān)性就行了;
4) 不再需要科學(xué)的或者統(tǒng)計(jì)的模型,”理論被終結(jié)了”?!哆B線》雜志2008年的一篇文章里豪情萬丈的寫到:“數(shù)據(jù)已經(jīng)大到可以自己說出結(jié)論了“。
不幸的是,說的好聽一些,上述信條都是極端樂觀和過于簡化了。如果說的難聽一點(diǎn),就像劍橋大學(xué)公共風(fēng)險(xiǎn)認(rèn)知課的Winton教授(類似于國內(nèi)的長江學(xué)者——譯者注)David Spiegelhalter評論的那樣,這四條都是“徹頭徹尾的胡說八道”。
在谷歌、facebook和亞馬遜這些公司不斷通過我們所產(chǎn)生的數(shù)據(jù)來理解我們生活的過程中,現(xiàn)實(shí)數(shù)據(jù)支撐起了新互聯(lián)網(wǎng)經(jīng)濟(jì)。愛德華.斯諾登揭露了美國政府?dāng)?shù)據(jù)監(jiān)聽的規(guī)模和范圍,很顯然安全部門同樣癡迷從我們的日常數(shù)據(jù)中挖掘點(diǎn)什么東西出來。
咨詢師敦促數(shù)據(jù)小白們趕緊理解大數(shù)據(jù)的潛力。麥肯錫全球機(jī)構(gòu)在一份最近的報(bào)告中做了一個計(jì)算,從臨床試驗(yàn)到醫(yī)療保險(xiǎn)報(bào)銷到智能跑鞋,如果能把所有的這些健康相關(guān)的數(shù)據(jù)加以更好的整合分析,那么美國的醫(yī)療保險(xiǎn)系統(tǒng)每年可以節(jié)省3000億美金的開支,平均每一個美國人可以省下1000美元。
雖然大數(shù)據(jù)在科學(xué)家、企業(yè)家和政府眼里看起來充滿希望,但如果忽略了一些我們以前所熟知的統(tǒng)計(jì)學(xué)中的教訓(xùn),大數(shù)據(jù)可能注定會讓我們失望。
Spiegelhalter教授曾說到:“大數(shù)據(jù)中有大量的小數(shù)據(jù)問題。這些問題不會隨著數(shù)據(jù)量的增大而消失,它們只會更加突出。”
在那篇關(guān)于谷歌流感趨勢預(yù)測的文章發(fā)表4年以后,新的一期《自然雜志消息》報(bào)道了一則壞消息:在最近的一次流感爆發(fā)中谷歌流感趨勢不起作用了。這個工具曾經(jīng)可靠的運(yùn)作了十幾個冬天,在海量數(shù)據(jù)分析和不需要理論模型的條件下提供了快速和準(zhǔn)確的流感爆發(fā)趨勢。然而這一次它迷路了,谷歌的模型顯示這一次的流感爆發(fā)非常嚴(yán)重,然而疾控中心在慢慢匯總各地?cái)?shù)據(jù)以后,發(fā)現(xiàn)谷歌的預(yù)測結(jié)果比實(shí)際情況要夸大了幾乎一倍。
問題的根源在于谷歌不知道(一開始也沒法知道)搜索關(guān)鍵詞和流感傳播之間到底有什么關(guān)聯(lián)。谷歌的工程師們沒有試圖去搞清楚關(guān)聯(lián)背后的原因。他們只是在數(shù)據(jù)中找到了一些統(tǒng)計(jì)特征。他們更關(guān)注相關(guān)性本身而不是相關(guān)的原因。這種做法在大數(shù)據(jù)分析中很常見。要找出到底是什么原因?qū)е铝四撤N結(jié)果是很困難的,或許根本不可能。而發(fā)現(xiàn)兩件事物之間的相關(guān)性則要簡單和快速的多。就像Viktor Mayer-Sch nberger 和 Kenneth Cukier 在《大數(shù)據(jù)》這本書中形容的那樣:“因果關(guān)系不能被忽略,然而曾作為所有結(jié)論出發(fā)點(diǎn)的它已經(jīng)被請下寶座了。”
這種不需要任何理論的純粹的相關(guān)性分析方法,其結(jié)果難免是脆弱的。如果你不知道相關(guān)性背后的原因,你就無法得知這種相關(guān)性在什么情況下會消失。谷歌的流感趨勢出錯的一種解釋是,2012年12月份的媒體上充斥著各種關(guān)于流感的駭人故事,看到這些報(bào)道之后,即使是健康的人也會跑到互聯(lián)網(wǎng)上搜索相關(guān)的詞匯。還有另外一種解釋,就是谷歌自己的搜索算法,在人們輸入病癥的時(shí)候會自動推薦一些診斷結(jié)果進(jìn)而影響到了用戶的搜索和瀏覽行為。這就好像在足球比賽里挪動了門柱一樣,球飛進(jìn)了錯誤的大門。
谷歌將使用新的數(shù)據(jù)再次校準(zhǔn)流感趨勢這個產(chǎn)品,重新來過。這當(dāng)然是正確的做法。能夠有更多的機(jī)會讓我們簡捷的采集和處理大規(guī)模的數(shù)據(jù),這當(dāng)然有一百個理由讓人興奮。然而我們必須從上述例子中汲取足夠的教訓(xùn),才能避免重蹈覆轍。
統(tǒng)計(jì)學(xué)家們過去花了200多年,總結(jié)出了在認(rèn)知數(shù)據(jù)的過程中存在的種種陷阱。如今數(shù)據(jù)的規(guī)模更大了,更新更快了,采集的成本也更低了。但我們不能掩耳盜鈴,假裝這些陷阱都已經(jīng)被填平了,事實(shí)上它們還在那里。
在1936年,民主黨人Alfred Landon與當(dāng)時(shí)的總統(tǒng)Franklin Delano Roosevelt(富蘭克林.羅斯福——譯者注)競選下屆總統(tǒng)?!蹲x者文摘》這家頗有聲望的雜志承擔(dān)了選情預(yù)測的任務(wù)。當(dāng)時(shí)采用的是郵寄問卷調(diào)查表的辦法,調(diào)查人員雄心勃勃,計(jì)劃寄出1000萬份調(diào)查問卷,覆蓋四分之一的選民。可以預(yù)見,洪水般寄回的郵件將超乎想象,然而《文摘》似乎還樂在其中。8月下旬的時(shí)候他們寫到:“從下周起,1000萬張問卷的第一批回執(zhí)將會到達(dá),這將是后續(xù)郵件洪峰的開始。所有這些表格都會被檢查三次,核對,交叉存檔五份,然后匯總。”
最終《文摘》在兩個多月里收到了驚人的240萬份回執(zhí),在統(tǒng)計(jì)計(jì)算完成以后,雜志社宣布Landon將會以55比41的優(yōu)勢擊敗Roosevelt贏得大選,另外4%的選民則會投給第三候選人。
然而真實(shí)選舉結(jié)果與之大相徑庭:Roosevelt以61比37的壓倒性優(yōu)勢獲勝。讓《讀者文摘》更沒面子的是,觀點(diǎn)調(diào)查的先創(chuàng)人George Gallup通過一場規(guī)模小的多的問卷,得出了準(zhǔn)確得多的預(yù)測結(jié)果。Gallup預(yù)計(jì)Roosevelt將穩(wěn)操勝券。顯然,Gallup先生有他獨(dú)到的辦法。而從數(shù)據(jù)的角度來看,規(guī)模并不能決定一切。
觀點(diǎn)調(diào)查是基于對投票人的的大范圍采樣。這意味著調(diào)查者需要處理兩個難題:樣本誤差和樣本偏差。
樣本誤差是指一組隨機(jī)選擇的樣本觀點(diǎn)可能無法真實(shí)的反映全部人群的看法。而誤差的幅度,則會隨著樣本數(shù)量的增加而減小。對于大部分的調(diào)查來說,1000次的訪談已經(jīng)是足夠大的樣本了。而據(jù)報(bào)道Gallup先生總共進(jìn)行了3000次的訪談。
就算3000次的訪談已經(jīng)很好了,那240萬次不是會更好嗎?答案是否定的。樣本誤差有個更為危險(xiǎn)的朋友:樣本偏差。樣本誤差是指一個隨機(jī)選擇的樣本可能無法代表所有其他的人;而樣本偏差則意味著這個樣本可能根本就不是隨機(jī)選擇的。George Gallup費(fèi)了很大氣力去尋找一個沒有偏差的樣本集合,因?yàn)樗肋@遠(yuǎn)比增加樣本數(shù)量要重要的多。
而《讀者文摘》為了尋求一個更大的數(shù)據(jù)集,結(jié)果中了偏差樣本的圈套。他們從車輛注冊信息和電話號碼簿里選擇需要郵寄問卷的對象。在1936年那個時(shí)代,這個樣本群體是偏富裕階層的。而且Landon的支持者似乎更樂于寄回問卷結(jié)果,這使得錯誤更進(jìn)了一步。這兩種偏差的結(jié)合,決定了《文摘》調(diào)查的失敗。Gallup每訪談一個人,《文摘》對應(yīng)的就能收到800份回執(zhí)。如此大規(guī)模而精確的調(diào)查最終卻得出一個錯誤的結(jié)果,這的確讓人難堪不已。
如今對大數(shù)據(jù)的狂熱似乎又讓人想起了《讀者文摘》的故事?,F(xiàn)實(shí)數(shù)據(jù)的集合是如此混亂,很難找出來這里面是否存在樣本偏差。而且由于數(shù)據(jù)量這么大,一些分析者們似乎認(rèn)定采樣相關(guān)的問題已經(jīng)不需要考慮了。而事實(shí)上,問題依然存在。
《大數(shù)據(jù)》這本書的聯(lián)合作者,牛津大學(xué)互聯(lián)網(wǎng)中心的Viktor Mayer-Sch nberger教授,曾告訴我他最喜歡的對于大數(shù)據(jù)集合的定義是“N=所有”,在這里不再需要采樣,因?yàn)槲覀冇姓麄€人群的數(shù)據(jù)。就好比選舉監(jiān)察人不會找?guī)讖堄写硇缘倪x票來估計(jì)選舉的結(jié)果,他們會記點(diǎn)每一張選票。當(dāng)“N=所有”的時(shí)候確實(shí)不再有采樣偏差的問題,因?yàn)椴蓸右呀?jīng)包含了所有人。
但“N=所有”這個公式對大多數(shù)我們所使用的現(xiàn)實(shí)數(shù)據(jù)集合都是成立的嗎?恐怕不是。“我不相信有人可以獲得所有的數(shù)據(jù)”,Patrick Wolfe說,他是倫敦大學(xué)學(xué)院的一名計(jì)算機(jī)學(xué)家和統(tǒng)計(jì)學(xué)教授。
推特(Twitter)就是一個例子。理論上說你可以存儲和分析推特上的每一條記錄,然用后來推導(dǎo)出公共情緒方面的一些結(jié)論(實(shí)際上,大多數(shù)的研究者使用的都是推特提供的一個名為“消防水龍帶”的數(shù)據(jù)子集)。然而即使我們可以讀取所有的推特記錄,推特的用戶本身也并不能代表世界上的所有人。(根據(jù)Pew互聯(lián)網(wǎng)研究項(xiàng)目的結(jié)果,在2013年,美國的推特中年輕的,居住在大城市或者城鎮(zhèn)的,黑色皮膚的用戶比例偏高)
我們必須要搞清楚數(shù)據(jù)中漏掉了哪些人和哪些事,尤其當(dāng)我們面對的是一堆混亂的現(xiàn)實(shí)數(shù)據(jù)的時(shí)候。Kaiser Fung是一名數(shù)據(jù)分析師和《數(shù)字感知》這本書的作者,他提醒人們不要簡單的假定自己掌握了所有有關(guān)的數(shù)據(jù):“N=所有常常是對數(shù)據(jù)的一種假設(shè),而不是現(xiàn)實(shí)”。
在波士頓有一款智能手機(jī)應(yīng)用叫做“顛簸的街道”,這個應(yīng)用利用手機(jī)里的加速度感應(yīng)器來檢查出街道上的坑洼,而有了這個應(yīng)用市政工人就可以不用再去巡查道路了。波士頓的市民們下載這個應(yīng)用以后,只要在城市里開著車,他們的手機(jī)就會自動上傳車輛的顛簸信息并通知市政廳哪里的路面需要檢修了。幾年前還看起來不可思議的事情,就這樣通過技術(shù)的發(fā)展,以信息窮舉的方式得以漂亮的解決。波士頓市政府因此驕傲的宣布,“大數(shù)據(jù)為這座城市提供了實(shí)時(shí)的信息,幫助我們解決問題并做出長期的投資計(jì)劃”。
“顛簸的街道”在安裝它的設(shè)備中所產(chǎn)生的,是一個關(guān)于路面坑洼的地圖。然而從產(chǎn)品設(shè)計(jì)一開始這張地圖就更偏向于年輕化和富裕的街區(qū),因?yàn)槟抢镉懈嗟娜耸褂弥悄苁謾C(jī)。“顛簸的街道”的理念是提供關(guān)于坑洼地點(diǎn)的“N=所有”的信息,但這個“所有”指的是所有手機(jī)所能記錄的數(shù)據(jù),而不是所有坑洼地點(diǎn)的數(shù)據(jù)。就像微軟的研究者Kate Crawford指出的那樣,現(xiàn)實(shí)數(shù)據(jù)含有系統(tǒng)偏差,人們需要很仔細(xì)的考量才可能找到和糾正這些偏差。大數(shù)據(jù)集合看起來包羅萬象,但“N=所有”往往只是一個頗有誘惑力的假象而已。
當(dāng)然這個世界的現(xiàn)實(shí)是如果你能靠某個概念掙到錢,就沒人會關(guān)心什么因果關(guān)系和樣本偏差。全世界的公司在聽到美國折扣連鎖店Target的傳奇式成功(由紐約時(shí)報(bào)的Charles Duhigg在2012年報(bào)道出來)以后估計(jì)都要垂涎三尺。Duhigg解釋了Target公司是如何從它的顧客身上搜集到大量的數(shù)據(jù)并熟練的加以分析。它對顧客的理解簡直是出神入化。
Duhigg講的最多的故事是這樣的:一名男子怒氣沖沖的來到一家明尼蘇達(dá)附近的Target連鎖店,向店長投訴該公司最近給他十幾歲的女兒郵寄嬰兒服裝和孕婦服裝的優(yōu)惠券。店長大方的向他道了歉??刹痪煤蟮觊L又收到這名男子的電話要求再次道歉——只是這一次對方告知那個少女確實(shí)懷孕了。在她的父親還沒有意識到的時(shí)候,Target通過分析她購買無味濕紙巾和補(bǔ)鎂藥品的記錄就猜到了。
這是統(tǒng)計(jì)學(xué)的魔法嗎?或許還有更世俗一點(diǎn)的解釋。
Kaiser Fung在幫助零售商和廣告商開發(fā)類似的工具上有著多年的經(jīng)驗(yàn),他認(rèn)為“這里面存在一個嚴(yán)重的虛假正面效應(yīng)的問題”。他指的是我們通常都沒有能夠聽到的無數(shù)的反面故事,在那些例子里沒有懷孕的婦女們也收到了關(guān)于嬰兒用品的優(yōu)惠券。
如果只聽Duhigg講的故事,你可能很容易就覺得Target的算法是絕對可靠的——每個收到嬰兒連體服和濕紙巾購物券的人都是孕婦。這幾乎不可能出錯。但實(shí)際上孕婦能收到這些購物券可能僅僅是因?yàn)門arget給所有人都寄了這種購物券。在相信Target那些讀心術(shù)般的故事之前,你應(yīng)當(dāng)問問他們的命中率到底有多高。
在Charles Duhiggs的描述中,Target公司會在給你的購物券中隨機(jī)性的摻雜一些無關(guān)的東西,比如酒杯的券。否則的話孕婦們可能會發(fā)現(xiàn)這家公司的計(jì)算機(jī)系統(tǒng)在如此深入的探測她們的隱私,進(jìn)而感到不安。
Fung對此則有另外的解釋,他認(rèn)為Target這樣做并不是因?yàn)榻o孕婦寄一份滿是嬰兒用品的購物手冊會讓人起疑,而是由于這家公司本來就知道這些手冊會被寄給很多根本沒有懷孕的婦女。
以上這些觀點(diǎn)并不意味著數(shù)據(jù)分析一無是處,相反它可能是有高度商業(yè)價(jià)值的。即使能夠把郵寄的準(zhǔn)確度提高那么一點(diǎn)點(diǎn),都將是有利可圖的。但能賺錢并不意味著這種工具無所不能、永遠(yuǎn)正確。
一位名叫John Ioannidis的傳染病學(xué)家在2005年發(fā)表了一篇論文,題目叫“為什么大多數(shù)被發(fā)表的研究結(jié)果都是錯誤的”,標(biāo)題言簡意賅。他的論文中一個核心的思想就是統(tǒng)計(jì)學(xué)家們所稱的“多重比較問題”。
當(dāng)我們審視數(shù)據(jù)當(dāng)中的某個表象的時(shí)候,我們常常需要考慮這種表象是否是偶然產(chǎn)生的。如果這種表象看起來不太可能是隨機(jī)產(chǎn)生的時(shí)候,我們就稱它是“統(tǒng)計(jì)上顯著的”。
當(dāng)研究者面對許多可能的表象時(shí),多重比較錯誤就可能發(fā)生。假設(shè)有一個臨床試驗(yàn),我們讓部分小學(xué)生服用維他命而給其他小學(xué)生安慰劑。怎么判斷這種維他命的效果?這完全取決于我們對“效果”的定義。研究者們可能會考察這些兒童的身高、體重、蛀牙的概率、課堂表現(xiàn)、考試成績甚至是25歲以后的收入或者服刑記錄(長期追蹤觀察)。然后是綜合比較:這種維他命是對窮困家庭的孩子有效,還是對富裕家庭的有效?對男孩有效,還是女孩?如果做足夠多的不同的相關(guān)性測試,偶然產(chǎn)生的結(jié)果就會淹沒真實(shí)的發(fā)現(xiàn)。
有很多辦法可以解決上述的問題,然而在大數(shù)據(jù)中這種問題會更加嚴(yán)重。因?yàn)楸绕鹨粋€小規(guī)模的數(shù)據(jù)集合來說,大數(shù)據(jù)的情況下有太多可以用作比較的標(biāo)準(zhǔn)。如果不做仔細(xì)的分析,那么真實(shí)的表象與虛假表象之比——相當(dāng)于信號噪聲比——很快就會趨近于0。
更糟的是,我們之前會用增加過程透明度的辦法來解決多重比較的問題,也就是讓其他的研究者也知道有哪些假設(shè)被測試過了,有哪些反面的試驗(yàn)結(jié)果沒有被發(fā)表出來。然而現(xiàn)實(shí)數(shù)據(jù)幾乎都不是透明的。亞馬遜和谷歌,F(xiàn)acebook和推特,Target和Tesco,這些公司都沒打算過跟你我分享他們的所有數(shù)據(jù)。
毫無疑問,更新、更大、更廉價(jià)的數(shù)據(jù)集合以及強(qiáng)大的分析工具終將產(chǎn)生價(jià)值。也確實(shí)已經(jīng)出現(xiàn)了一些大數(shù)據(jù)分析的成功實(shí)例。劍橋的David Spiegelhalter提到了谷歌翻譯,這款產(chǎn)品統(tǒng)計(jì)分析了人類已經(jīng)翻譯過的無數(shù)文檔,并在其中尋找出可以自己復(fù)制的模式。谷歌翻譯是計(jì)算機(jī)學(xué)家們所謂的“機(jī)器學(xué)習(xí)”的一個應(yīng)用,機(jī)器學(xué)習(xí)可以在沒有預(yù)先設(shè)定編程邏輯的條件下計(jì)算出驚人的結(jié)果。谷歌翻譯是目前所知的最為接近"無需理論模型、純數(shù)據(jù)驅(qū)動的算法黑盒子”這一目標(biāo)的產(chǎn)品。用Spiegelhalter的話來說,它是“一個令人驚訝的成就”。這一成就來自于對海量數(shù)據(jù)的聰明的處理。
然而大數(shù)據(jù)并沒有解決統(tǒng)計(jì)學(xué)家和科學(xué)家們數(shù)百年來所致力的一些難題:對因果關(guān)系的理解,對未來的推演,以及如何對一個系統(tǒng)進(jìn)行干預(yù)和優(yōu)化。
倫敦皇家學(xué)院的David Hand教授講過一句話,“現(xiàn)在我們有了一些新的數(shù)據(jù)來源,但是沒有人想要數(shù)據(jù),人們要的是答案”。
要使用大數(shù)據(jù)來得到這樣的答案,還需要在統(tǒng)計(jì)學(xué)的方法上取得大量長足的進(jìn)展。
UCL的Patrick Wolfe說,“大數(shù)據(jù)就好像是蠻荒的美國西部。那些頭腦靈活野心勃勃的人會想盡辦法利用一切可能的工具,從這些數(shù)據(jù)中淘出點(diǎn)值錢的東西來,這很酷。但目前我們做的還有些盲目。”
統(tǒng)計(jì)學(xué)家們正爭先恐后的為大數(shù)據(jù)開發(fā)新的工具。這些新的工具當(dāng)然很重要,但它們只有在吸取而不是遺忘過去統(tǒng)計(jì)學(xué)精髓的基礎(chǔ)上才能成功。
最后,我們再回頭來看看大數(shù)據(jù)的四個基礎(chǔ)信條。其一,如果簡單的忽略掉那些反面的數(shù)據(jù),比如Target的懷孕預(yù)測算法,那么我們很容易就會過高的估計(jì)算法的精確度。其二,如果我們在一個固定不變的環(huán)境里做預(yù)測,你可以認(rèn)為因果關(guān)系不再重要。而當(dāng)我們處在一個變化的世界中(例如流感趨勢預(yù)測所遇到的那樣),或者是我們自己就想要改變這個環(huán)境,這種想法就很危險(xiǎn)了。其三,“N=所有”,以及采樣偏差無關(guān)緊要,這些前提在絕大多數(shù)的實(shí)際情況下都是不成立的。最后,當(dāng)數(shù)據(jù)里的假像遠(yuǎn)遠(yuǎn)超過真相的時(shí)候,還持有“數(shù)據(jù)足夠大的時(shí)候,就可以自己說出結(jié)論了”這種觀點(diǎn)就顯得過于天真了。
大數(shù)據(jù)已經(jīng)到來,但它并沒有帶來新的真理?,F(xiàn)在的挑戰(zhàn)是要吸取統(tǒng)計(jì)學(xué)中老的教訓(xùn),在比以前大得多的數(shù)據(jù)規(guī)模下去解決新的問題、獲取新的答案。