“大數(shù)據(jù)”怎樣改變生活
新聞背景
大數(shù)據(jù),現(xiàn)在越來越成為了一個很時髦的詞匯。有人把大數(shù)據(jù)形容為未來世界的石油,有人宣稱掌握大數(shù)據(jù)的人可以像上帝一樣俯瞰整個世界,美國政府甚至已經(jīng)把對大數(shù)據(jù)的研究上升為國家戰(zhàn)略。日前,由中國科協(xié)舉辦的“科學(xué)家與媒體面對面——大數(shù)據(jù)離我們生活有多遠(yuǎn)”活動中,有關(guān)專家為我們介紹了大數(shù)據(jù)對未來生活的影響。
我們生活在一個充滿“數(shù)據(jù)”的時代,這里的“數(shù)據(jù)”,并不僅僅指數(shù)字,理論上講,一切可以以文件形式儲存于計(jì)算機(jī)硬盤的東西,包括數(shù)字、文字、圖像、聲音、視頻等,均可稱為“數(shù)據(jù)”。我們打電話,使用微博、QQ、博客等社交工具,都是在不斷增加著社會總體數(shù)據(jù)量。
據(jù)權(quán)威預(yù)測,未來每隔18個月,整個世界的數(shù)據(jù)總量就會翻倍。IBM的研究稱,整個人類文明所獲得的全部數(shù)據(jù)中,有90%是過去兩年內(nèi)產(chǎn)生的。
數(shù)據(jù),除了它第一次被使用時提供的價(jià)值以外,那些積累下來的數(shù)據(jù)海洋并不是無用的廢物,它還有著無窮無盡的“剩余價(jià)值”,關(guān)于這一點(diǎn),人們已經(jīng)有了越來越多的認(rèn)識。事實(shí)上,大數(shù)據(jù)已經(jīng)開始并將繼續(xù)影響我們的生活,下面我們不妨試舉幾例。
精準(zhǔn)廣告投放已很普遍
很多女性可能有這樣的經(jīng)歷,使用某瀏覽器在淘寶、京東等購物網(wǎng)站上購買過一本關(guān)于懷孕的書籍后,在之后十個月左右的時間里,你的瀏覽器兩側(cè)的廣告欄里不斷出現(xiàn)懷孕所需要的東西,如營養(yǎng)食品、對胎兒無影響的孕婦用藥、胎心監(jiān)測儀、體溫計(jì)、血壓計(jì)等產(chǎn)品廣告,登錄原來的購物網(wǎng)站,也會在首頁向你推薦這類產(chǎn)品。而且,在十個月之后,你會發(fā)現(xiàn),以上這些廣告開始變成嬰兒用品了。
你以前可能對瀏覽器廣告非常討厭,但對這類廣告,你卻欣然接受,因?yàn)樗扑]的產(chǎn)品正是你所需要的。這實(shí)際上就是大數(shù)據(jù)應(yīng)用的一個簡單案例。你的瀏覽經(jīng)歷已經(jīng)被瀏覽器和電商所記錄,通過對用戶瀏覽記錄進(jìn)行大數(shù)據(jù)分析,就可以推測出你目前是一種什么狀態(tài),今后又將經(jīng)歷哪些狀態(tài),于是,專為你定制的廣告就在你需要的時候出現(xiàn)在你的眼前。
大數(shù)據(jù)最本質(zhì)的應(yīng)用就在于預(yù)測,即從海量數(shù)據(jù)中分析出一定的特征,進(jìn)而預(yù)測未來可能會發(fā)生什么。實(shí)際上,上述例子僅僅是大數(shù)據(jù)應(yīng)用的最初級階段。因?yàn)樗婕暗臄?shù)據(jù)的范圍并不廣泛,其分析原理也非常簡單。而如前言所述,大數(shù)據(jù)有數(shù)據(jù)量大、數(shù)據(jù)多樣性等特征,實(shí)際是將各個維度的數(shù)據(jù)進(jìn)行綜合分析進(jìn)而進(jìn)行一定的預(yù)測。當(dāng)不同的數(shù)據(jù)流被整合到大型數(shù)據(jù)庫中后,預(yù)測的廣度和精度都會大規(guī)模的提高。例如,當(dāng)一個數(shù)據(jù)庫從不同的數(shù)據(jù)來源獲得了你使用手機(jī)的時間和地點(diǎn)、信用卡購物、銀行卡電子收費(fèi)系統(tǒng)、使用QQ等聊天工具的對象、你的QQ好友關(guān)系圖、你在新浪微博、騰訊微博的收聽及被收聽關(guān)系圖譜、你交納的水、電、燃?xì)赓M(fèi)等各方面的數(shù)據(jù),數(shù)據(jù)分析師就能通過匹配獲得你生活的不同側(cè)面。通過大數(shù)據(jù),數(shù)據(jù)分析可以發(fā)現(xiàn)各種各樣的關(guān)聯(lián)。通過分析,可以發(fā)現(xiàn)你多方面的需求,并不僅僅是諸如懷孕書籍和尿不濕之間的簡單關(guān)聯(lián)了。在數(shù)據(jù)足夠“大”的情況下,你生活中幾乎所有的需求都可能會被預(yù)測出來。例如,從數(shù)據(jù)分析出你可能會約會,于是會向你推薦衣服;從數(shù)據(jù)推測出你會出去旅游,于是向你推薦相關(guān)裝備及旅行方式等。
醫(yī)療衛(wèi)生體系會更加精密
通過分析大量用戶的搜索記錄,比如“咳嗽”、“發(fā)燒”等特定詞條,谷歌公司能準(zhǔn)確預(yù)測美國冬季流感傳播趨勢。和官方機(jī)構(gòu)相比,谷歌能提前一兩周預(yù)測流感爆發(fā),預(yù)測結(jié)果與官方數(shù)據(jù)的相關(guān)性高達(dá)97%。2009年,在甲型H1N1流感爆發(fā)的幾周前,谷歌的工程師們公開發(fā)表了一篇論文,不僅預(yù)測流感即將爆發(fā),并且其預(yù)測還精確到美國特定的地區(qū)和州。這讓人們感到十分震驚。準(zhǔn)確預(yù)測流感疫情,說起來并不復(fù)雜,谷歌一直致力于對用戶檢索數(shù)據(jù)的分析。用戶求醫(yī)問藥等搜索數(shù)據(jù)可謂海量,把這些數(shù)據(jù)再拿來與美國疾控中心往年記錄的實(shí)際流感病例信息相比對,就幫助谷歌作出了準(zhǔn)確預(yù)測。
在日本也有相似的應(yīng)用,日本國內(nèi)有一個網(wǎng)站,你只要打開這個網(wǎng)站用自己的社交網(wǎng)站賬號登錄,就可以在短時間內(nèi)通過數(shù)萬條社交網(wǎng)站記錄找出可能感冒的人,并通過過去的感冒情況和今日的感冒情況進(jìn)行分析,另外該程序還會結(jié)合氣溫和濕度的變化來預(yù)測將來感冒的流行情況,并制作一個“易感冒日歷”。目前,此類服務(wù)正在日本陸續(xù)展開。
對個體而言,大數(shù)據(jù)可以為個人提供個性化的醫(yī)療服務(wù)。過去我們?nèi)タ床?,醫(yī)生只能對我們的當(dāng)下身體情況做出判斷,而在大數(shù)據(jù)的幫助下,將來的診療可以對一個患者的累計(jì)歷史數(shù)據(jù)進(jìn)行分析,并結(jié)合遺傳變異、對特定疾病的易感性和對特殊藥物的反應(yīng)等關(guān)系,實(shí)現(xiàn)個性化的醫(yī)療。還可以在患者發(fā)生疾病癥狀前,提供早期的檢測和診斷。早期發(fā)現(xiàn)和治療可以顯著降低肺癌給衛(wèi)生系統(tǒng)造成的負(fù)擔(dān),因?yàn)樵缙诘氖中g(shù)費(fèi)用是后期治療費(fèi)用的一半。
個性化教育可能真正實(shí)現(xiàn)
在傳統(tǒng)教育模式下,分?jǐn)?shù)就是一切,一個班上幾十個人,使用同樣的教材,同一個老師上課,課后布置同樣的作業(yè)。然而,學(xué)生是千差萬別的,在這個模式下,不可能真正做到“因材施教”。
舉例來說,一個學(xué)生考試得了88分,這個分?jǐn)?shù)僅僅是一個數(shù)字,它能代表什么呢?88分背后是家庭背景、努力程度、學(xué)習(xí)態(tài)度、智力水平等,把它們和88分聯(lián)系在一起,這就成了“數(shù)據(jù)”。大數(shù)據(jù)因其數(shù)據(jù)來源的廣度,有能力去關(guān)注每一個個體學(xué)生的微觀表現(xiàn)——他在什么時候開始看書,在什么樣的講課方式下效果最好,在什么時候?qū)W習(xí)什么科目效果最好,在不同類型的題目上停留多久等等。這些數(shù)據(jù)對其他個體都沒有意義,是高度個性化表現(xiàn)特征的體現(xiàn)。同時,這些數(shù)據(jù)的產(chǎn)生完全是過程性的:課堂的過程,作業(yè)的過程,師生或同學(xué)的互動過程……而最有價(jià)值的是,這些數(shù)據(jù)完全是在學(xué)生不自知的情況下被觀察、收集的,只需要一定的觀測技術(shù)與設(shè)備的輔助,而不影響學(xué)生任何的日常學(xué)習(xí)與生活,因此它的采集也非常的自然、真實(shí)。
在大數(shù)據(jù)的支持下,教育將呈現(xiàn)另外的特征:彈性學(xué)制、個性化輔導(dǎo)、社區(qū)和家庭學(xué)習(xí)、每個人的成功……大數(shù)據(jù)支撐下的教育,就是要根據(jù)每一個人的特點(diǎn),解放每一個人本來就有的學(xué)習(xí)能力和天分。
延伸閱讀
個人隱私保護(hù) 一道能邁過的坎
看了前面這些,讀者可能要擔(dān)心了,大數(shù)據(jù)包含有包羅萬象的數(shù)據(jù),其中不少數(shù)據(jù)涉及個人的職位、年齡、身體狀況、消費(fèi)水平、旅行習(xí)慣等隱私,那么,在大數(shù)據(jù)時代,個人隱私能夠得到保護(hù)嗎?答案是,只要國家相關(guān)部門實(shí)時推進(jìn)隱私保護(hù),企業(yè)主動落實(shí)隱私保護(hù)責(zé)任,大數(shù)據(jù)產(chǎn)業(yè)在飛速發(fā)展的同時并不會對民眾隱私產(chǎn)生威脅。
在大數(shù)據(jù)產(chǎn)業(yè)中,有兩個基本的作法,一是符號化。符號化是指識別用戶的時候,識別的僅僅是一個“符號”,這個符號與真實(shí)信息并不相關(guān),系統(tǒng)通過一定的算法能夠知道多次登錄的是同一個用戶,但并沒有辦法反推出這個人是誰,因此,電話、住址等信息都沒法與本人關(guān)聯(lián)起來。二是用戶特征。用戶特征意味著在大數(shù)據(jù)時代企業(yè)感興趣的往往是這個用戶的特征,而不是家庭地址、電話號碼等真正敏感的信息。例如,系統(tǒng)需要了解本科以上學(xué)歷、月收入10000元以上、已婚等這樣一個群體,只需要找出符合這些特征的人的特性,并不關(guān)心這個人是誰。這樣也不會造成隱私的泄露。
當(dāng)然,這些原則性問題有賴于政府推動、企業(yè)自律。但我們相信,為大數(shù)據(jù)產(chǎn)業(yè)的健康發(fā)展,相關(guān)部門,相關(guān)企業(yè)一定會高度重視這一問題。
【想看更多互聯(lián)網(wǎng)新聞和深度報(bào)道請關(guān)注速途網(wǎng)官方微信。(微信號:速途網(wǎng))】