信息時代的騙局:背離現(xiàn)實世界 大數(shù)據(jù)毫無價值

責(zé)任編輯:editor004

2014-07-04 14:38:11

摘自:譯言網(wǎng)

如果說大數(shù)據(jù)擅長測量人們的行為,那么它在認(rèn)識人們?nèi)粘J挛锏碾[性知識方面則是失敗的。如果硅谷的大數(shù)據(jù)傳教士們真想“了解世界”,那么他們不僅需要掌握數(shù)據(jù)的量,也要掌握數(shù)據(jù)的質(zhì)。

如果說大數(shù)據(jù)擅長測量人們的行為,那么它在認(rèn)識人們?nèi)粘J挛锏碾[性知識方面則是失敗的。一種內(nèi)隱的認(rèn)識在控制著我們的行為。跟身邊的事物一樣,這些不可見的隱性知識只有主動去看,我們才能發(fā)現(xiàn)。

經(jīng)過一代人的時間,“技術(shù)天才”與社會的關(guān)系發(fā)生了改變,他們從宅男變成了救世主,從反社會群體變成了社會的最大希望。許多人似乎確信,當(dāng)下理解我們世界的最佳方式便是坐在屏幕前,分析海量信息——我們稱其為“大數(shù)據(jù)”。

來看看“谷歌流感趨勢”吧。2008年,當(dāng)它面世時,硅谷的許多人員鼓吹其將成為大數(shù)據(jù)的另一個里程碑,并且會很快淘汰掉傳統(tǒng)分析。

不過,他們錯了。

如果硅谷的大數(shù)據(jù)傳教士們真想“了解世界”,那么他們不僅需要掌握數(shù)據(jù)的量,也要掌握數(shù)據(jù)的質(zhì)。

“谷歌流感趨勢”不僅沒有提供流感傳播的精確圖表,它也無法實現(xiàn)大數(shù)據(jù)作為傳道者的美夢。沒有“厚數(shù)據(jù)”,大數(shù)據(jù)就什么也不是。你必須離開電腦,深入到現(xiàn)實世界當(dāng)中來獲取這些豐富且?guī)в星榫郴男畔?。電腦極客們一度因不擅社交而被嘲笑,他們被告知應(yīng)該“多出去走走”。事實上,如果大數(shù)據(jù)最主要的擁躉者希望理解這個他們也參與塑造的世界,他們真的需要出去走走。

與修改算法無關(guān)

“谷歌流感趨勢”試圖通過識別人們在流感季可能搜索的詞匯來發(fā)揮作用。當(dāng)它追蹤的詞匯搜索達(dá)到高峰時,谷歌會向大家預(yù)警新流感的爆發(fā),這大約要比官方數(shù)據(jù)早兩周時間。

對很多人來說,“谷歌流感趨勢”成為了大數(shù)據(jù)之力的代表。在暢銷書《大數(shù)據(jù):一場改變我們生活、工作和思考的革命》中,作者維克托-邁爾-舍恩柏格和肯尼斯-庫克耶稱,與政府滯后的數(shù)據(jù)報告相比,“谷歌流感趨勢”是更有用、更及時的流感指示器。為什么即便費心查看數(shù)據(jù),人們還是會得病,我們何時才能知道究竟什么與疾病相關(guān)?“因果關(guān)系”他們寫道,“不會被丟棄,不過其立意的根本正受到考驗。”

然而,本月發(fā)表在《科學(xué)》上的一篇文章表明,自2011年八月起,“谷歌流感趨勢”幾乎每周都會高估流感的流行性。

回溯到2009年,在發(fā)布后不久,“谷歌流感趨勢”完全沒預(yù)警到豬流感。這證明人們在流感季搜索的許多詞都與流感無關(guān),而與每年這一季相關(guān)的詞通常都有:冬天。

如今,很容易說(像許多人做過的那樣)“谷歌流感趨勢”的失敗源于大數(shù)據(jù)的不成熟。不過,這樣便錯過了問題的關(guān)鍵。當(dāng)然,調(diào)整算法、提高數(shù)據(jù)收集技術(shù)將會讓下一代大數(shù)據(jù)工具變得更有效。然而,大數(shù)據(jù)真正的狂妄之處不在于我們對一套不成熟的算法和方法過于自信,問題是我們盲目地相信坐在電腦屏幕前,搗鼓一些數(shù)字就足以讓自己對周圍廣闊的世界有個了解。

為什么大數(shù)據(jù)需要“厚數(shù)據(jù)”

大數(shù)據(jù)僅僅是在收集人文學(xué)科中所謂的”薄數(shù)據(jù)“,它們由我們的動作和行為路徑產(chǎn)生。我們每天最常走的路線,在網(wǎng)上搜索的東西,睡了多久,人與人之間的多種聯(lián)系,我們所聽的音樂類型等等。這些數(shù)據(jù)來自于你瀏覽器中的cookies,你腕上的fitbit或是你手機里的GPS。人們的這些行為內(nèi)容無疑是重要的,但它們并不是全部。

為了真正地了解人,我們也必須了解經(jīng)驗的那部分,即人類學(xué)家所指的“厚數(shù)據(jù)”。它不僅僅捕捉事實。比如說,美國有86%的家庭主婦每周會喝掉6夸脫以上的牛奶,但是她們?yōu)槭裁春扰D棠??而且這像什么呢?一塊帶有星星和條紋的三色布是薄數(shù)據(jù),而一面在風(fēng)中高高飄揚的美國國旗便是厚數(shù)據(jù)。

在探尋“我們做了什么”的基礎(chǔ)上,大數(shù)據(jù)簡單地認(rèn)識我們;厚數(shù)據(jù)嘗試通過我們?nèi)绾闻c所在的不同世界相聯(lián)系來了解我們。只有了解我們的世界,人們才能從整體上真正認(rèn)識它,這恰恰也是谷歌、facebook這類的公司想要做的。

用0和1認(rèn)識世界

想想當(dāng)下硅谷的那些宏偉宣言,谷歌有名的宗旨是“組織全球信息,使人人皆可訪問并從中獲益。”最近,馬克-扎克伯格跟他的投資人說,在全球性連接變得日趨重要、知識經(jīng)濟(jì)不斷受到強調(diào)的背景下,F(xiàn)acebook帶來了一個全新的視角,即”認(rèn)識世界”。他描述了未來“認(rèn)識”的樣子:“人們每天向graph(Facebook的算法搜索機制)發(fā)布數(shù)十億條內(nèi)容和鏈接,由此建立各種有待了解事物的最明晰模本。”在這個追求認(rèn)識的過程中,即便是一些小公司也可以分享信息。去年,捷波朗軟件的副總裁耶利米-羅賓遜說道,他們的健康跟蹤設(shè)備JawboneUP試圖“認(rèn)識行為變化的科學(xué)。”

與收集的數(shù)據(jù)一樣,這些目標(biāo)也非常“大”。毋庸置疑,商業(yè)渴望更好地認(rèn)識社會。畢竟,與客戶行為及文化相關(guān)的信息不僅是經(jīng)營的關(guān)鍵;在知識經(jīng)濟(jì)時代,它們也逐漸成為一種貨幣,用來交換點擊數(shù)、瀏覽量、廣告費,或是更簡單直接的——權(quán)力。在此過程中,倘若谷歌、facebook這類公司能幫助我們不斷地增進(jìn)對自己的認(rèn)識,它們便將獲得更大的權(quán)力。問題是聲稱電腦終將組織所有數(shù)據(jù),或是向我們提供對流感、健康、社交聯(lián)系或任何其他事情的全面認(rèn)識,這徹底拉低了數(shù)據(jù)和認(rèn)識的意義。

如果硅谷的大數(shù)據(jù)傳教士們真想“了解世界”,那么他們不僅需要掌握數(shù)據(jù)的量,也要掌握數(shù)據(jù)的質(zhì)。不幸的是,要實現(xiàn)后者,人們要將電腦放下,不僅“從谷歌眼鏡中看世界”(或是從facebook中、從虛擬現(xiàn)實中),還要去體驗真實的世界。這樣做有兩個重要原因。

要了解人,你就要了解他們所處的情境

如果你對一個領(lǐng)域高度熟悉,薄數(shù)據(jù)則是最有用的。你有能力填補信息的不足,設(shè)想到人們?yōu)槭裁催@樣做或為什么有這樣的反應(yīng)——當(dāng)你能想象并重建行為發(fā)生的情境時,薄數(shù)據(jù)便是有意義的。如果不知道情境,想推斷出任何因果關(guān)系或是了解人們的行為動機則是很難實現(xiàn)的。

這也是為什么在科學(xué)實驗中,研究人員需要竭盡全力掌控實驗室環(huán)境的方方面面,以求打造一個人為場所,使各種影響因素都在可計量范圍內(nèi)。不過,真實世界并不是一個實驗室。能確保你對陌生情境有所了解的唯一途徑即是置身其中地去觀察、去內(nèi)化并闡述正在發(fā)生的每一件事。

世上大部分是我們所不知道的隱性知識

如果說大數(shù)據(jù)擅長測量人們的行為,那么它在認(rèn)識人們?nèi)粘J挛锏碾[性知識方面則是失敗的。我怎么知道刷牙時該擠多少牙膏?什么時候該并入行車道?眨眼是表示“這東西真有趣”還是“我的眼睛進(jìn)了東西”?這些都是內(nèi)化的能力、無意識的行為,一種內(nèi)隱的認(rèn)識在控制著我們的行為。跟身邊的事物一樣,這些不可見的隱性知識只有主動去看,我們才能發(fā)現(xiàn)。不過,它們卻對每個人的行為方式有著重要影響。它能夠解釋事物是怎樣、以哪種意義與我們聯(lián)系起來的。

人類及社會科學(xué)中有一系列俘獲和解釋人的方法,他們所處的情境,他們的隱性知識,而且這些都擁有一個特質(zhì):它們要求研究者進(jìn)入雜亂而真實的生活。

沒有哪一個工具可以成為認(rèn)識人類的快捷方式。盡管硅谷有許多出色的發(fā)明,不過我們對數(shù)字技術(shù)的期望還是要有個限度。“谷歌流感趨勢”真正教給我們的是:不能僅僅問這個數(shù)據(jù)有多“大”,還要問問這個數(shù)據(jù)有多“厚”。

有時,走進(jìn)真實的生活將會得到更好的效果。有時,我們必須要離開電腦一會兒。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號