大數(shù)據(jù)現(xiàn)在非常熱,美國(guó)白宮任命的委員會(huì)近日發(fā)布大數(shù)據(jù)政府報(bào)告,而中國(guó)央視在兩會(huì)中有大數(shù)據(jù)的專(zhuān)題,網(wǎng)絡(luò)中的大數(shù)據(jù)分析報(bào)告也比比皆是,從百度遷徙看“東莞挺住”,到馬年春晚的大數(shù)據(jù)分析。大數(shù)據(jù)正在從一種理論思考,演變成跨越社會(huì)各領(lǐng)域的實(shí)踐行為。
但大數(shù)據(jù)真的這么美嗎?如何讓數(shù)據(jù)說(shuō)真話?當(dāng)一切美好的討論需向現(xiàn)實(shí)兌現(xiàn),大數(shù)據(jù)背后的泡沫,將成新的困惑。大數(shù)據(jù)目前存在五個(gè)大問(wèn)題。
數(shù)據(jù)真實(shí)性。官員要政績(jī)、學(xué)界要交差、商界要名利。注水性數(shù)據(jù)導(dǎo)致硬數(shù)據(jù)軟化?;嵯禂?shù)、博主粉絲量、復(fù)興指數(shù),為何一直在被質(zhì)疑?凡數(shù)據(jù)造假能獲利,則數(shù)據(jù)極可能有假。越來(lái)越多的軟件自動(dòng)發(fā)布信息,使得大數(shù)據(jù)也是真假難辨。數(shù)據(jù)背后的細(xì)節(jié),數(shù)據(jù)源的真實(shí)、全面以及處理過(guò)程的科學(xué),是大數(shù)據(jù)走向權(quán)威和可信的重要保障。
樣本代表性。我們不可能搜集到全數(shù)據(jù),而與大數(shù)據(jù)相關(guān)的形容詞往往是大規(guī)模、精準(zhǔn)、細(xì)化,在調(diào)用如此“完美”的數(shù)據(jù)時(shí),如何注意情景和樣本的適用性。正如網(wǎng)絡(luò)民意與現(xiàn)實(shí)民意的討論,微博不代表網(wǎng)絡(luò),網(wǎng)絡(luò)不代表社會(huì),朋友圈也是小圈子,跳出圈子看世界不容易,切勿陷入相同的悖論。在選樣、測(cè)量、誤差校正不盡如人意時(shí),好數(shù)據(jù)將劣化,大數(shù)據(jù)將虛化。
相關(guān)性誤差。利用大數(shù)據(jù),基于一定算法和模型對(duì)變量元素進(jìn)行相關(guān)性分析,在要素構(gòu)成簡(jiǎn)單的情景中可以,在復(fù)雜系統(tǒng)中,僅有相關(guān)性解釋還不夠,易走偏。比如一個(gè)明顯不對(duì)的結(jié)論:一個(gè)城市的網(wǎng)頁(yè)數(shù)越高,其網(wǎng)絡(luò)形象就越好。雖然,數(shù)據(jù)統(tǒng)計(jì)證實(shí)了網(wǎng)頁(yè)數(shù)和網(wǎng)絡(luò)形象存在一般的正相關(guān),但忽略了負(fù)面事件帶來(lái)的網(wǎng)頁(yè)量爆發(fā)等,結(jié)論也是不科學(xué)的。相關(guān)性要真正體現(xiàn)在數(shù)據(jù)之間、數(shù)據(jù)與真實(shí)事件影射的現(xiàn)象之間、真實(shí)事件的客觀聯(lián)系上。
故事化。大數(shù)據(jù)的概念沖擊、視覺(jué)盛宴,看上去不錯(cuò),但要警惕割裂傳統(tǒng)信息管理系統(tǒng)和大數(shù)據(jù)的關(guān)系,營(yíng)造一個(gè)概念化、全新的東西。比如開(kāi)發(fā)商大肆搞房地產(chǎn),大數(shù)據(jù)要建數(shù)據(jù)中心,圈地成必然,又如做科研項(xiàng)目,思路和內(nèi)容要新穎,不少人拉大旗借用大數(shù)據(jù)。大數(shù)據(jù)只有與實(shí)際接軌,工具化、服務(wù)化和實(shí)用化,能解決具體問(wèn)題的大數(shù)據(jù),才能打破泡沫,見(jiàn)證數(shù)據(jù)真正之美。
隱私侵犯。大數(shù)據(jù)中包含著每個(gè)人的小數(shù)據(jù),這些數(shù)據(jù)經(jīng)過(guò)進(jìn)一步分析既能知道你的愛(ài)好,也能知道你的下意識(shí)行為傾向,如果據(jù)此來(lái)判斷一個(gè)人的未來(lái),是否會(huì)重演大片“少數(shù)派報(bào)告”的場(chǎng)景,我們現(xiàn)在還不得而知。
當(dāng)然,新事物多要經(jīng)歷陣痛、廣受褒貶,才能逐漸練就為成熟的應(yīng)用。大數(shù)據(jù)之路,要加強(qiáng)對(duì)真假數(shù)據(jù)的清洗,有好的矯正鑒別模型;商業(yè)中的大數(shù)據(jù)挖掘,應(yīng)推動(dòng)交互開(kāi)放模式;政府可推動(dòng)數(shù)據(jù)開(kāi)放平臺(tái)的接口,建立更好的溝通渠道,加大數(shù)據(jù)造假的懲治力度。樣本代表性問(wèn)題,如果無(wú)法做到全數(shù)據(jù),應(yīng)盡量考慮大數(shù)據(jù)分析的適用范圍和結(jié)論邊界。大數(shù)據(jù)分析也要有直觀體驗(yàn),明顯與實(shí)際不符的結(jié)論最好有多個(gè)來(lái)源證實(shí),多實(shí)地視察,加強(qiáng)生活中人性化溝通、交流,通過(guò)人際體驗(yàn)獲得第一手材料。對(duì)涉及個(gè)人隱私的數(shù)據(jù),需要加快立法,予以規(guī)范,避免為技術(shù)所異化。