2002年,有一部上映的科幻片——《少數(shù)派報(bào)告》,講述的是在2054年的美國(guó),謀殺已經(jīng)消失,犯罪可以被預(yù)知。有三個(gè)具有感知未來超能力的人——先知,可以在事前得到犯罪的信息,經(jīng)過司法部的預(yù)防犯罪小組破譯犯罪證據(jù)之后,罪犯在實(shí)施犯罪之前就會(huì)得到懲罰。而這一切似乎將要變?yōu)楝F(xiàn)實(shí),只不過電影中用的是超能力,而今運(yùn)用大數(shù)據(jù)。
2009年,在甲型H1N1流感爆發(fā)的前幾周,谷歌通過觀察人們?cè)诰W(wǎng)上的搜索記錄就提前預(yù)測(cè)了流感的傳播。谷歌保存了多年來所有的搜索記錄,每天收到來自全球超過30億條的搜索指令,通過分析這些龐大的數(shù)據(jù)資源,而得出了這個(gè)結(jié)論。
世界著名咨詢機(jī)構(gòu)麥肯錫公司于 2011年5月發(fā)布了《大數(shù)據(jù):下一個(gè)創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的前沿》報(bào)告,掀開了大數(shù)據(jù)研究的序幕。作為從經(jīng)濟(jì)和商業(yè)維度詮釋大數(shù)據(jù)發(fā)展?jié)摿Φ牡谝环輰n}研究成果,該報(bào)告系統(tǒng)闡述了大數(shù)據(jù)概念,詳細(xì)列舉了大數(shù)據(jù)的核心技術(shù),深入分析了大數(shù)據(jù)在不同行業(yè)的應(yīng)用,明確提出了政府和企業(yè)決策者應(yīng)對(duì)大數(shù)據(jù)發(fā)展的策略。
一、大數(shù)據(jù)簡(jiǎn)介
麥肯錫認(rèn)為,“大數(shù)據(jù)”是指其大小超出了典型數(shù)據(jù)庫軟件的采集、儲(chǔ)存、管理和分析等能力的數(shù)據(jù)集。該定義有兩方面內(nèi)涵:一是符合大數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)集大小是變化的,會(huì)隨著時(shí)間推移、技術(shù)進(jìn)步而增長(zhǎng);二是不同部門符合大數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)集大小會(huì)存在差別。目前,大數(shù)據(jù)的一般范圍是從幾個(gè)TB到數(shù)個(gè)PB。
大數(shù)據(jù)(big data),究竟這個(gè)數(shù)據(jù)有多大。很多人試圖測(cè)量出一個(gè)確切的數(shù)字。南加利福尼亞大學(xué)的馬丁?希爾伯特(Martin Hilbert)試圖得出人類所創(chuàng)造的、存儲(chǔ)和傳播的一切信息的確切數(shù)目。據(jù)他估算,2007年,人類大約存儲(chǔ)了超過300艾字節(jié)的數(shù)據(jù)[1]。他預(yù)測(cè),到2013年,世界上存儲(chǔ)的數(shù)據(jù)能達(dá)到約1.2澤字節(jié)。這意味著:如果把這些數(shù)據(jù)全部記在書中,可以覆蓋整個(gè)美國(guó)52次,如果將其存儲(chǔ)在只讀光盤上,這些光盤可以堆成五堆,每一堆都可以延伸到月球[2]。
IBM將大數(shù)據(jù)的特點(diǎn)總結(jié)為4個(gè)V:
(一) Volume
數(shù)據(jù)體積巨大,在我們需要處理數(shù)據(jù)的時(shí)候,不再需要隨機(jī)樣本,而是全體數(shù)據(jù)。即樣本=全體。小數(shù)據(jù)時(shí)代隨機(jī)抽樣,我們用最少的數(shù)據(jù)獲得最多的信息。因?yàn)榧夹g(shù)的限制,取得過多的樣本會(huì)消耗大量的成本和精力?,F(xiàn)在,技術(shù)環(huán)境已經(jīng)有了很大的改善,依然進(jìn)行抽樣分析就類似于在汽車時(shí)代依然騎馬一樣。大數(shù)據(jù)注定對(duì)社會(huì)科學(xué)有最大的撼動(dòng),因?yàn)槲覀冊(cè)僖膊挥靡蕾嚦闃诱{(diào)查了。
(二)Variety
數(shù)據(jù)的類型及來源繁多并且包含越來越多的非結(jié)構(gòu)化數(shù)據(jù)(如圖像、聲音等信息);大數(shù)據(jù)的來源主要有這樣幾個(gè)方面[3]:
一是媒體數(shù)據(jù),特別是互聯(lián)網(wǎng)、社交媒體產(chǎn)生的數(shù)據(jù),包括人們?yōu)g覽網(wǎng)頁的數(shù)字化記錄等;
二是各類企業(yè)的生產(chǎn)、銷售、管理等等數(shù)據(jù);
三是政府部門的數(shù)據(jù);
四是物聯(lián)網(wǎng)、各種傳感器產(chǎn)生的數(shù)據(jù),以及未聯(lián)網(wǎng)的各種攝像頭拍攝的數(shù)據(jù);
五是民眾個(gè)人留存的數(shù)據(jù),包括個(gè)人、家庭文字及音像數(shù)據(jù)。
數(shù)據(jù)類型和數(shù)量的繁多,各種數(shù)據(jù)魚龍混雜,直接帶來的結(jié)果就是錯(cuò)誤數(shù)據(jù)的增多,精確度的下降。在小數(shù)據(jù)時(shí)代,在抽樣調(diào)查的時(shí)候我們要對(duì)我們的調(diào)查的信度和效度負(fù)責(zé),所以數(shù)據(jù)越精確越好。但是現(xiàn)在不是這樣了,在大數(shù)據(jù)時(shí)代,我們掌握的數(shù)據(jù)越來越全面,它不僅包括現(xiàn)象的一點(diǎn)點(diǎn)數(shù)據(jù),而是包括了與這些現(xiàn)象相關(guān)的大量甚至全部的數(shù)據(jù)。我們要做的就是接受這些紛繁的數(shù)據(jù)并從中獲益,而不是以高昂的代價(jià)消除所有的不確定性。
(三)Velocity
數(shù)據(jù)增長(zhǎng)速度快,其對(duì)于實(shí)時(shí)處理速度的要求也很高。
(四)Value
數(shù)據(jù)價(jià)值高但密度低,海量數(shù)據(jù)背后擁有價(jià)值的數(shù)據(jù)比例低。
二、大數(shù)據(jù)對(duì)傳媒的影響
(一)對(duì)傳統(tǒng)媒體的影響
傳統(tǒng)的紙媒在互聯(lián)網(wǎng)的沖擊下依然搖搖欲墜,報(bào)紙、雜志的受眾紛紛轉(zhuǎn)投更先進(jìn)、更具現(xiàn)代氣息的互聯(lián)網(wǎng),或者手機(jī)、iPad等移動(dòng)終端。更不用提現(xiàn)在這些新媒體有了大數(shù)據(jù)作為支撐。
亞馬遜網(wǎng)站最初的時(shí)候,聘請(qǐng)了20多個(gè)書評(píng)家和編輯組成的團(tuán)隊(duì),他們寫書評(píng)、推薦新書,挑選非常有特色的新書標(biāo)題放在亞馬遜的網(wǎng)頁上。這個(gè)團(tuán)隊(duì)創(chuàng)立了“亞馬遜聲音”這個(gè)版塊,成為當(dāng)時(shí)公司這頂皇冠上的一顆寶石,是其競(jìng)爭(zhēng)優(yōu)勢(shì)的重要來源。后來林登創(chuàng)立了基于大數(shù)據(jù)分析的系統(tǒng),應(yīng)用在網(wǎng)站上之后,亞馬遜可以根據(jù)客戶個(gè)人以前的購物喜好,為其推薦具體的書籍,而且除了書籍,更可以推薦電子用品,烤面包機(jī)這些產(chǎn)品。這個(gè)系統(tǒng)創(chuàng)造了亞馬遜銷售額的三分之一。最終,書評(píng)組被解散了。很多大型書店和音樂唱片商店也歇業(yè)了。
現(xiàn)在的網(wǎng)絡(luò)已經(jīng)可以在新聞下方列出一長(zhǎng)串的相關(guān)新聞的鏈接了,視頻新聞也會(huì)在播放完畢之后自動(dòng)彈出相似視頻供挑選。而紙媒還完全做不到這一點(diǎn),如果繼續(xù)發(fā)展下去,任由新媒體在用戶個(gè)性化方面做的更好,紙媒勢(shì)必也面臨著亞馬遜書評(píng)組的命運(yùn)。
(二)對(duì)傳播效果的影響
大數(shù)據(jù)時(shí)代,新聞傳播將更有針對(duì)性,更精準(zhǔn),傳播將更有效果。大眾傳播是粗放型、廣種薄收的傳播,把所有的新聞信息向所有人傳播,缺乏針對(duì)性、精確度。受眾必須從眾多新聞信息中尋找自己需要的、感興趣的內(nèi)容。
新聞媒體自產(chǎn)生以來,都是以大眾傳播為主,綜合性報(bào)紙、綜合性的廣播電臺(tái)電視臺(tái)都是傳播界的王者。能做大做強(qiáng)的,都是面向大眾的綜合性媒體。大數(shù)據(jù)時(shí)代,情況將發(fā)生變化,人們上網(wǎng)瀏覽都會(huì)留下“足跡”——各種數(shù)字化記錄,即瀏覽數(shù)據(jù)。對(duì)一位受眾——固定 IP 地址或同一終端瀏覽器上的所有瀏覽數(shù)據(jù)或相當(dāng)長(zhǎng)時(shí)間的瀏覽數(shù)據(jù)進(jìn)行分析,便可獲知其上網(wǎng)習(xí)慣、喜好等等,根據(jù)這些數(shù)據(jù),在最合適的時(shí)間以最恰當(dāng)?shù)姆绞较蛩扑妥罡信d趣的新聞,這就是精準(zhǔn)傳播、“長(zhǎng)尾營(yíng)銷”,這樣的新聞不僅不會(huì)被當(dāng)做垃圾,還很可能被定制。隨著大數(shù)據(jù)時(shí)代的發(fā)展,精準(zhǔn)傳播會(huì)越來越普及,越來越受歡迎。
(三)對(duì)新聞價(jià)值的影響
智能手機(jī)普及、社交媒體發(fā)達(dá),使得人人都是記者,手機(jī)便是媒體,新聞報(bào)道、信息發(fā)布已經(jīng)不再是媒體人的專利了。“我在現(xiàn)場(chǎng)”曾經(jīng)是傳媒業(yè)及其從業(yè)人員倍感驕傲的事情,時(shí)效性也成為業(yè)內(nèi)比拼最為激烈的指標(biāo)。大數(shù)據(jù)時(shí)代,聯(lián)網(wǎng)的網(wǎng)民和各種電子記錄設(shè)備(如攝像頭)散布在社會(huì)各個(gè)角落,不斷觀察和上傳實(shí)時(shí)情況,在經(jīng)過網(wǎng)民們的“分布式”集體選擇后,形成熱點(diǎn)新聞。甬溫動(dòng)車事故,雅安地震,第一時(shí)間傳出來的消息都來自于事件現(xiàn)場(chǎng)的人的微博。都說明最有時(shí)效的新聞來自“在現(xiàn)場(chǎng)”的人,而不是“到現(xiàn)場(chǎng)”的人。“獨(dú)家新聞”已經(jīng)成為了明日黃花,再也沒有媒體用時(shí)效性來標(biāo)榜自己。
更加具有顛覆性的是,應(yīng)用了大數(shù)據(jù)分析的網(wǎng)站如果能夠判斷哪些新聞更加符合大眾的口味,新聞價(jià)值將失去其意義,新聞編輯的新聞敏感性也將無用武之地。讀者喜歡什么樣的新聞,編輯所要做的就是按照大數(shù)據(jù)分析的結(jié)果去呈現(xiàn)那樣的新聞,只要“知其然”,無需“知其所以然”。只需要關(guān)注新聞?lì)愋秃妥x者的相關(guān)關(guān)系,無需花費(fèi)多余的精力深究因果關(guān)系。除非是要進(jìn)行學(xué)術(shù)研究。
(四)媒體數(shù)據(jù)庫
大數(shù)據(jù)時(shí)代,媒體要有強(qiáng)烈的數(shù)據(jù)意識(shí),要善于收集數(shù)據(jù)、分析數(shù)據(jù)、使用數(shù)據(jù),挖掘數(shù)據(jù)的潛在用途。媒體業(yè)本身是信息產(chǎn)業(yè),并且是信息業(yè)的前沿,在大數(shù)據(jù)時(shí)代擁有先天優(yōu)勢(shì)。郵政行業(yè)有最全的地址數(shù)據(jù),淘寶網(wǎng)積累了10年來網(wǎng)購用戶交易和瀏覽記錄,新浪微博和人人網(wǎng)擁有了所有注冊(cè)用戶的人際關(guān)系網(wǎng)絡(luò)信息。媒體擁有天然的信息優(yōu)勢(shì),每天都有難以計(jì)數(shù)的文字、圖片、視頻被創(chuàng)作出來,只不過這些信息沒有被數(shù)據(jù)化。很多傳統(tǒng)媒體紛紛觸網(wǎng),信息已經(jīng)很大程度上完成了數(shù)字化——即轉(zhuǎn)換成了可被電腦識(shí)別的二進(jìn)制信號(hào),但是大數(shù)據(jù)時(shí)代,這些信息需要數(shù)據(jù)化——即變成可量化制表分析的過程,這樣,方能發(fā)揮大數(shù)據(jù)的核心威力:預(yù)測(cè)。
除了傳統(tǒng)的文字、圖片、視頻等數(shù)據(jù),媒體仍需拓寬自己的數(shù)據(jù)范圍。媒體不僅要有自己的采編隊(duì)伍,有自己的原創(chuàng)新聞、原創(chuàng)評(píng)論,還應(yīng)該圍繞自身優(yōu)勢(shì)建立一個(gè)數(shù)字化的平臺(tái)——一個(gè)互動(dòng)的、社交化的、擁有廣泛人氣、能夠容納廣大網(wǎng)民上貼、交流、討論的平臺(tái)[4]。它可以匯聚各方信息,形成龐大的、擁有巨量信息與數(shù)據(jù)的平臺(tái)。
大量的數(shù)據(jù)也需要被妥善的利用,需要挖掘數(shù)據(jù)背后潛在的價(jià)值。消費(fèi)者信貸領(lǐng)域的一些公司考慮開發(fā)以Facebook社交圖譜為依據(jù)的信用評(píng)分,因?yàn)樗麄儼l(fā)現(xiàn):個(gè)人會(huì)償還債務(wù)的可能性和其朋友會(huì)償還債務(wù)的可能性成正相關(guān)。“社交網(wǎng)絡(luò)分析之父”貝爾納多?哈柏曼的分析顯示,微博中單一主題出現(xiàn)的頻率可以用來預(yù)測(cè)好萊塢的票房收入,從而預(yù)測(cè)一部電影的成敗??梢哉f,數(shù)據(jù)的真實(shí)價(jià)值就像漂浮在海洋的冰山,第一眼只能看到冰山的一角,而絕大部分則隱藏在表面之下。
(五)對(duì)媒體功能的影響
媒體在做好社會(huì)記錄者與信息傳播者外,更應(yīng)定位成社會(huì)解讀者和分析預(yù)測(cè)者,深度解讀和去偽存真本是媒體的重要職責(zé),而大數(shù)據(jù)賦予的全面深刻的洞察恰好能為傳媒再添一雙慧眼。媒體數(shù)字化轉(zhuǎn)型正在進(jìn)行中,從采集、處理、儲(chǔ)存、傳播,完全地?cái)?shù)字化后,媒體產(chǎn)生的數(shù)據(jù)量將急速增大,成為大數(shù)據(jù)的重要生成與應(yīng)用行業(yè)。
大數(shù)據(jù)的核心思想是預(yù)測(cè),是用數(shù)學(xué)算法來分析數(shù)據(jù),預(yù)測(cè)事物發(fā)生的可能性。奈飛(Netflix)是一家在線電影租賃公司,通過記錄分析用戶的搜索和使用記錄,分析前后數(shù)據(jù)的相關(guān)性,從而了解用戶的喜好,推薦后續(xù)產(chǎn)品。亞馬遜則是依據(jù)類似的原理推薦書籍等產(chǎn)品。
大數(shù)據(jù)應(yīng)用到新聞?lì)I(lǐng)域,必然利用其最核心的競(jìng)爭(zhēng)力——預(yù)測(cè),相比于數(shù)據(jù)新聞學(xué),預(yù)測(cè)新聞學(xué)更有可能大行其道。數(shù)據(jù)新聞的精髓或許在于將傳統(tǒng)的新聞敏感和使用數(shù)字信息講述一則好故事的能力相結(jié)合而帶來新的可能性, 這些可能性會(huì)出現(xiàn)在新聞報(bào)道的任何一個(gè)階段[5]。預(yù)測(cè)新聞是根據(jù)事物發(fā)展現(xiàn)階段的影響要素和特點(diǎn),對(duì)事物發(fā)展的規(guī)律和走向,進(jìn)行判斷和推測(cè)的一種報(bào)道[6]。數(shù)據(jù)新聞學(xué)把數(shù)據(jù)作為一種新聞要素,輔助新聞的表達(dá),使得新聞更具有可讀性、可信性,可以增加新聞的深度。新聞本身是一門社會(huì)科學(xué),相比較于自然科學(xué),有其模糊性。但是,如果合理的利用大數(shù)據(jù),將數(shù)據(jù)化的新聞信息進(jìn)行分析,得出事物發(fā)展的趨勢(shì),社會(huì)變遷的方向。對(duì)這樣的趨勢(shì)、方向的報(bào)道無疑和預(yù)測(cè)報(bào)道更加的相像。
在專業(yè)性比較強(qiáng)的報(bào)道,如體育、財(cái)經(jīng),大數(shù)據(jù)更能施展其預(yù)測(cè)的功能。如同在電影《點(diǎn)球成金》里面,棒球星探在統(tǒng)計(jì)學(xué)家面前相形見絀——直覺的判斷被迫讓位于精準(zhǔn)的數(shù)據(jù)分析。對(duì)賽事結(jié)果的預(yù)測(cè),對(duì)經(jīng)濟(jì)衰退的預(yù)警,甚至地震預(yù)測(cè)也能真正讓人們提前有所防備。這一切幾乎是思維的全新的轉(zhuǎn)變,將迫使人們調(diào)整在管理、決策和教育方面的傳統(tǒng)理念。
(六)媒體從業(yè)人員需要新的技能
大數(shù)據(jù)時(shí)代,傳媒業(yè)還要避己之弱,補(bǔ)足自身發(fā)展的短板。大數(shù)據(jù)時(shí)代要求人們具備三種能力:數(shù)學(xué)運(yùn)算與建模的能力、網(wǎng)絡(luò)工程與分析能力、能夠洞見事物本質(zhì)的能力。麥肯錫咨詢公司報(bào)告預(yù)測(cè),到 2018 年,僅美國(guó)將面臨 14 萬到 19 萬高級(jí)數(shù)據(jù)分析師短缺的情形。中國(guó)的短缺情況應(yīng)相去不遠(yuǎn)。但是,專業(yè)的工程師、數(shù)據(jù)挖掘師擅長(zhǎng)數(shù)據(jù)處理技術(shù),對(duì)國(guó)情、社會(huì)及社會(huì)問題、對(duì)政治經(jīng)濟(jì)的了解卻并非長(zhǎng)項(xiàng)。傳媒從業(yè)者與人與社會(huì)打交道,以整個(gè)社會(huì)為思考對(duì)象,對(duì)人對(duì)事有特殊的洞察力,因此媒體需著力培養(yǎng)數(shù)據(jù)時(shí)代的媒體專家:讓編輯記者盡快了解大數(shù)據(jù),掌握基本的機(jī)器學(xué)習(xí)、各種算法及數(shù)據(jù)分析方法,懂得用大數(shù)據(jù)技術(shù)分析解剖社會(huì)問題,分析處理民眾關(guān)注的社會(huì)熱點(diǎn)、難點(diǎn)、焦點(diǎn)問題;讓數(shù)據(jù)工程師熟悉社會(huì)、了解社會(huì),認(rèn)清國(guó)情,增強(qiáng)政治辨識(shí)能力,培養(yǎng)社會(huì)洞察力,擁有這樣一批“全才”,傳媒業(yè)才有更大的發(fā)展?jié)摿Α?/p>
三、負(fù)面影響:隱私
大數(shù)據(jù)帶來的變革毋庸置疑,但是這一切都是建立在正確利用它的基礎(chǔ)上。換個(gè)角度想一想,我們每天都暴露在“第三只眼”之下:淘寶、亞馬遜監(jiān)視著我們的購物習(xí)慣,谷歌、百度監(jiān)視著我們的網(wǎng)頁瀏覽習(xí)慣,而微博似乎什么都知道,不僅竊聽了我們心目中的“TA”,還有我們的社交網(wǎng)絡(luò)。
《竊聽風(fēng)暴》是這樣一部電影:1984年,全東德百姓被一百萬國(guó)家秘密警察(蓋世太保)控制著,國(guó)家安全局的竊聽手段像《1984》中的電幕系統(tǒng)一樣掌握和控制著人民的思想。“你只能在這樣的假定下生活——從已經(jīng)成為本能的習(xí)慣出發(fā),你早已這樣生活了:你發(fā)出的每一個(gè)聲音,都是有人聽到的,你作的每一個(gè)動(dòng)作,除非在黑暗中,都是有人仔細(xì)觀察的。”
現(xiàn)在這一切好像又要重演。一旦這些數(shù)據(jù)落入了不法之徒手中,后果不堪設(shè)想。當(dāng)所有的信息都已經(jīng)在數(shù)據(jù)庫里面的時(shí)候,有意識(shí)的避免某些信息就是此地?zé)o銀三百兩。谷歌街景在采集道路和房屋的圖像的數(shù)據(jù)的時(shí)候,遭到了很多人的反對(duì),因?yàn)槊癖娬J(rèn)為這些圖片會(huì)幫助盜賊選擇有利的目標(biāo)。于是,谷歌將不同意的業(yè)主的房屋和花園的照片模糊化的時(shí)候,起到了反作用,對(duì)盜賊來說,反而暴露了目標(biāo)[7]。
而且,在大數(shù)據(jù)時(shí)代,匿名化也是不可行的。在新聞報(bào)道的時(shí)候,可以用化名取代真實(shí)的人物,但是,其他的數(shù)據(jù),時(shí)間、地點(diǎn)、事件的細(xì)節(jié)必須保持真實(shí)。只要有足夠的數(shù)據(jù),很容易將范圍縮小到唯一的目標(biāo)身上。匿名化與大數(shù)據(jù)同時(shí)存在幾乎成了一個(gè)悖論。
本文開頭的時(shí)候談到的《少數(shù)派報(bào)告》中,僅僅根據(jù)某人又犯罪的傾向就對(duì)他經(jīng)行懲罰,違背了法律或者公平的基石——無罪推定原則。因?yàn)槲覀儽蛔肪控?zé)任,居然是為了我們永遠(yuǎn)都不會(huì)實(shí)施的行為。雖然這僅僅是電影,但是依然可以窺見大數(shù)據(jù)在未來給我們帶來的道德和倫理的挑戰(zhàn)。
大數(shù)據(jù)并不是一個(gè)充斥著算法和機(jī)器的冰冷的世界,人類的作用依然無法被完全替代。大數(shù)據(jù)為我們提供的不是最終答案,只是參考答案,幫助時(shí)暫時(shí)的,更好的方法和答案還在不遠(yuǎn)的未來。