點(diǎn)擊、流量的多少并不能客觀地概括“我們是誰(shuí)”,而是關(guān)于希望與訴求的一種個(gè)性化的展現(xiàn)。目前針對(duì)“大數(shù)據(jù)”的定義給人的印象是缺乏主體性,我們不能滿足于數(shù)據(jù)的產(chǎn)生與人有關(guān),更要意識(shí)到,數(shù)據(jù)本身就是由人創(chuàng)造。這就是人的數(shù)據(jù)。
我們所處的時(shí)代還有一個(gè)比較拗口的名字,叫做“拍字節(jié)時(shí)代”(petabyte era),所謂“拍字節(jié)”即千萬(wàn)億字節(jié)或千兆字節(jié),屬于較高級(jí)的儲(chǔ)存單位。人們不僅關(guān)注存儲(chǔ)介質(zhì)的龐大體量,也在談?wù)摂?shù)據(jù)內(nèi)容的急速增長(zhǎng)。“我們每天創(chuàng)造2.5萬(wàn)兆字節(jié)的數(shù)據(jù),90%的現(xiàn)有數(shù)據(jù)在過(guò)去兩年內(nèi)創(chuàng)造。”這種說(shuō)法的準(zhǔn)確出處是IBM公司在其官網(wǎng)上發(fā)布的“什么是大數(shù)據(jù)”,類似的結(jié)論常常被一些媒體所轉(zhuǎn)述。
不光是媒體,包括商界、學(xué)術(shù)期刊都開(kāi)始熱衷于研究大數(shù)據(jù)的特別之處。2013年,《哥倫比亞新聞評(píng)論》(Columbia Journalism Review)上有一篇文章,形容“大數(shù)據(jù)”是“一個(gè)包羅萬(wàn)象的標(biāo)簽”——通過(guò)分析大量的數(shù)據(jù)來(lái)重新認(rèn)識(shí)世界。被譽(yù)為“信息時(shí)代的精神領(lǐng)袖”的克里斯·安德森(Chris Anderson)在《連線》(Wired)雜志上曾預(yù)言,數(shù)據(jù)洪流將導(dǎo)致科學(xué)方法不合時(shí)宜,他所謂的“理論的終結(jié)”正在一步步演變?yōu)楝F(xiàn)實(shí)——如此龐大的數(shù)據(jù)是現(xiàn)成的,沒(méi)有必要大費(fèi)周章地提出假設(shè),然后不厭其煩地進(jìn)行科學(xué)驗(yàn)證。如果善于獲取和分析數(shù)據(jù),它們自身就可以說(shuō)明很多問(wèn)題。
何謂大數(shù)據(jù)?一個(gè)數(shù)據(jù)集合需要滿足三個(gè)“V”的維度,即大量(huge in volume)、高速(high in velocity)、多變(diverse in variety),有時(shí)也會(huì)附帶第四點(diǎn),真實(shí)或準(zhǔn)確(veracity),這可以從不同角度進(jìn)行解讀。一旦掌握了全部人口的數(shù)據(jù),就意味著產(chǎn)生新的可能性。在熱烈的討論中,往往被遺忘的,或者暫時(shí)被忽視的是這些新鮮出爐的字節(jié)有多少是基于個(gè)人數(shù)據(jù)創(chuàng)造。值得一提的是,三個(gè)“V”的維度是15年前由美國(guó)高德納公司分析員道格·萊尼(Doug Laney)提出,當(dāng)時(shí)用以描述數(shù)據(jù)管理的核心問(wèn)題,后來(lái)經(jīng)過(guò)重新演繹,用來(lái)定義大數(shù)據(jù)。
哈佛大學(xué)科學(xué)史系助理教授麗貝卡·萊莫夫(Rebecca Lemov)在課上講授大數(shù)據(jù)主題時(shí),總喜歡提到美國(guó)男星查爾頓·赫斯頓(Charlton Heston)主演的反烏托邦科幻電影《超世紀(jì)諜殺案》(Soylent Green)。影片在1973年上映,描繪了2022年的未來(lái)世界——由于污染、氣候變暖和人口過(guò)剩導(dǎo)致資源枯竭,蔬菜水果成為稀有的奢侈品,大多數(shù)人只能依賴于綠色食品(soylent)維持生命,官方口徑是由大豆(soy)和扁豆(lentil)制成。事實(shí)并非如此,男主人公經(jīng)過(guò)調(diào)查后發(fā)現(xiàn),綠色食品是用人做的——“Soylent green is people”,這一幕出現(xiàn)在影片結(jié)尾處。
萊莫夫套用了這句經(jīng)典臺(tái)詞,稱“大數(shù)據(jù)就是人”。關(guān)于大數(shù)據(jù)的定義,大部分都沒(méi)有考慮到與生俱來(lái)的人性,也沒(méi)有揪住意味深長(zhǎng)的啟示,比如技術(shù)與不斷改變的自我定義的關(guān)系。一組不同以往的新數(shù)據(jù),源于人類的日常生活——幾乎不用深思熟慮,通過(guò)一個(gè)簡(jiǎn)單動(dòng)作就能完成,推特、臉書(shū)、谷歌搜索、在線評(píng)論、一鍵下單。這些是“我”的模糊圖像,新的虛擬生活被轉(zhuǎn)換為算法處理。
對(duì)于上述數(shù)據(jù)的生產(chǎn)現(xiàn)場(chǎng),人類地理學(xué)者羅伯·基欽(Rob Kitchin)最近做過(guò)編目,包括進(jìn)貨量的記錄、數(shù)字設(shè)備對(duì)其使用歷史的保存和傳播(如手機(jī))、事務(wù)處理日志和數(shù)字網(wǎng)絡(luò)的交互(如郵件和網(wǎng)上銀行)、網(wǎng)站或軟件導(dǎo)航所帶來(lái)的點(diǎn)擊流量、嵌入物體或環(huán)境的傳感器所收集的測(cè)量數(shù)據(jù)、對(duì)機(jī)讀對(duì)象進(jìn)行的掃描(如條形碼)、車載資通系統(tǒng)、社交媒體的信息發(fā)布,大量的、動(dòng)態(tài)的、細(xì)化的、關(guān)聯(lián)的數(shù)據(jù)流由此形成。
2012年,沃爾瑪每小時(shí)創(chuàng)造2.5千萬(wàn)億字節(jié)數(shù)據(jù),涉及逾100萬(wàn)筆客戶交易。同年,臉書(shū)宣布每天處理25億個(gè)頁(yè)面(鏈接與評(píng)論)、27億個(gè)點(diǎn)贊、3億張上傳的圖片。與此同時(shí),精細(xì)數(shù)據(jù)的收集場(chǎng)合與方法一直在更新。今年2月,臉書(shū)修改了提供給用戶的性別設(shè)定,除了傳統(tǒng)的男/女,還有56種新的非傳統(tǒng)性別。
從輸入信息中導(dǎo)出的持續(xù)不斷的數(shù)據(jù)軌跡很快投入應(yīng)用。地圖上的數(shù)據(jù)流不但可以告訴你所在的位置,還能預(yù)判你的目的地。警方多了一個(gè)得力助手,在犯罪結(jié)論認(rèn)定前,先通過(guò)數(shù)據(jù)對(duì)嫌疑對(duì)象的行為范式進(jìn)行分析識(shí)別。“大數(shù)據(jù)是人”,這可以從兩方面來(lái)理解:大數(shù)據(jù)由我們的點(diǎn)擊、導(dǎo)航的偏好和行為所創(chuàng)造,也隨之塑成了許多重大的社會(huì)政策。
有文化批評(píng)人士指出,大數(shù)據(jù)所帶來(lái)的新式精神控制能夠影響美國(guó)大選,也有人稱其為貪婪的人類工程。哈佛商學(xué)院教授肖莎娜·祖波夫(Shoshana Zuboff)的觀點(diǎn)是,行為數(shù)據(jù)的利用會(huì)導(dǎo)致一系列破壞性的后果,尤其是隱私、自治、道德理性等,負(fù)面效應(yīng)可能要持續(xù)幾十年。在她看來(lái),這不過(guò)是一種新的充滿惡意的資本主義。
目前針對(duì)“大數(shù)據(jù)”的定義給人的印象是缺乏主體性,沒(méi)有起碼的人的角度。一批從事技術(shù)研究的社會(huì)科學(xué)家發(fā)起倡議,要求研究方式從“以數(shù)據(jù)為主”轉(zhuǎn)向“以人為本”,避免過(guò)分倚重?cái)?shù)據(jù)導(dǎo)向的研究路徑,沒(méi)有給予“人”足夠的重視,后者才是社會(huì)學(xué)研究的核心。這樣的學(xué)術(shù)自覺(jué)起到了一定的作用,卻也忽視了一個(gè)事實(shí):信息追蹤的數(shù)據(jù)本來(lái)就是由人構(gòu)成的。
盡管打著未來(lái)主義的旗號(hào),但是大數(shù)據(jù)以及數(shù)據(jù)導(dǎo)向的科學(xué)與社會(huì)科學(xué)的方法史產(chǎn)生了強(qiáng)烈的共鳴。20世紀(jì),社會(huì)科學(xué)門類逐漸發(fā)展分化,社會(huì)學(xué)區(qū)別于人類學(xué)、社會(huì)心理學(xué)區(qū)別于經(jīng)濟(jì)學(xué),各自形成專業(yè)、興趣領(lǐng)域以及特有的工具。主流的、專業(yè)的社會(huì)科學(xué)富于各種技巧,比如數(shù)據(jù)析取、場(chǎng)景設(shè)置等。1924年至1926年,美國(guó)社會(huì)學(xué)伉儷林德夫婦(Robert and Helen Lynd)在印第安納的曼西開(kāi)展了“中鎮(zhèn)研究”(Middletown study),他們采取了一種結(jié)合了人類學(xué)與社會(huì)學(xué)的方法,包括資料收集、訪談、參與觀察、問(wèn)卷調(diào)查以及其他形式。正如歷史學(xué)家莎拉·艾格(Sarah E Igo)在《均標(biāo)美國(guó)人》(The Averaged American)中寫道:“任何細(xì)枝末節(jié)的事實(shí)都不會(huì)被錯(cuò)過(guò),從七年級(jí)課本的內(nèi)容到時(shí)下熱門的電影,從在洗衣機(jī)上花費(fèi)的時(shí)間到居民的庭院面積。”
1947年,心理學(xué)家羅杰·巴克(Roger Barker)在堪薩斯的奧斯卡盧薩創(chuàng)建了一間社會(huì)科學(xué)實(shí)驗(yàn)室,他和同事們定期收集關(guān)于“日常生活”的數(shù)據(jù),包括一些并不引人注意的小事。其中有這么一條記錄:“1949年4月26日,周二,上午7:01,七歲的雷蒙德?lián)u搖晃晃地?fù)炱鹨恢灰m子,慢慢吞吞地套進(jìn)左腳時(shí),媽媽來(lái)了句玩笑——你就不能把眼睛睜開(kāi)嗎?”諸如此類的瑣碎內(nèi)容構(gòu)成了社會(huì)學(xué)研究的另一種資源,隨著城市變遷、光陰流逝,這樣的信息可以幫助我們重溫當(dāng)時(shí)的日常生活。開(kāi)拓性的社會(huì)學(xué)研究除了小的個(gè)體,還關(guān)注大的群體。二戰(zhàn)后,人類學(xué)家麥爾福·史拜羅(Melford Spiro)在西太平洋上的一座島上給當(dāng)?shù)厝颂峁┬睦頊y(cè)試,附近的環(huán)礁則進(jìn)行著核試驗(yàn)。為了學(xué)術(shù)研究,史拜羅的數(shù)據(jù)挖掘面向全部人口。
到了20世紀(jì)后半葉,城市的定居者越來(lái)越習(xí)慣于在任何場(chǎng)合回答與自己有關(guān)的問(wèn)題,著名的《金賽報(bào)告》(Kinsey Report)是在數(shù)以千計(jì)份的訪談樣本基礎(chǔ)上完成。哈佛商學(xué)院的研究團(tuán)隊(duì)曾在伊利諾伊的西塞羅找了一家工廠,發(fā)放了20000份調(diào)查問(wèn)卷,試圖弄清其他學(xué)者所提到的“難以捉摸的現(xiàn)象”。值得一提的是,受訪對(duì)象已經(jīng)開(kāi)始基于自己的目的來(lái)參與這項(xiàng)調(diào)查,偶爾提出尖銳的問(wèn)題、煽動(dòng)不滿情緒、調(diào)侃來(lái)訪的社會(huì)學(xué)家。
距今不遠(yuǎn)的未來(lái)某一天,人們回看今日,會(huì)為我們的天真無(wú)邪感到不可思議——如此癡迷新技術(shù),卻沒(méi)能發(fā)現(xiàn)行為數(shù)據(jù)資源的價(jià)值,輕而易舉地將它們泄露出去。這是一種可能性。另一種可能的情形是,目前看來(lái)仍是新的數(shù)據(jù)采集概念遭到解構(gòu),也許是規(guī)模,也許是粒度,這種趨勢(shì)其實(shí)很早就已經(jīng)出現(xiàn)了。
白宮政府新近發(fā)布的一份關(guān)于大數(shù)據(jù)的報(bào)告稱:“技術(shù)軌道顯而易見(jiàn),今后越來(lái)越多的個(gè)人數(shù)據(jù)將會(huì)產(chǎn)生,但與此同時(shí),必然處于控制之下。”萊莫夫則重申了她的看法:數(shù)據(jù)的產(chǎn)生不只是與人有關(guān),它同時(shí)也是由人所創(chuàng)造,這就是人的數(shù)據(jù)。