大數(shù)據(jù)熱過一陣后會(huì)降溫,但數(shù)據(jù)科學(xué)將不斷發(fā)展下去。不久的將來(lái),新一輪的數(shù)據(jù)處理和分析技術(shù)可能會(huì)替代大數(shù)據(jù)成為新聞焦點(diǎn)
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)無(wú)所不在,數(shù)據(jù)處理技術(shù)不斷翻新,令人眼花繚亂。但我們靜心細(xì)想和冷靜觀察,卻發(fā)現(xiàn)真正用大數(shù)據(jù)技術(shù)成功解決的問題并不多。公司運(yùn)營(yíng)、政府管理、社會(huì)服務(wù)等問題的認(rèn)知和決策仍主要是靠傳統(tǒng)的營(yíng)銷數(shù)據(jù)、行政數(shù)據(jù)及抽樣調(diào)查。這個(gè)現(xiàn)象告訴我們,大數(shù)據(jù)及其處理技術(shù)不是萬(wàn)能藥,它是一個(gè)新現(xiàn)象,一種認(rèn)知的新手段。它不會(huì)取代傳統(tǒng)的數(shù)據(jù)分析和決策支持,但將會(huì)極大地增強(qiáng)和拓展人類認(rèn)識(shí)世界和智能決策的能力。不管是“大數(shù)據(jù)”還是“小數(shù)據(jù)”,它們的共同目的都是用數(shù)據(jù)對(duì)現(xiàn)實(shí)和未來(lái)作出準(zhǔn)確的判斷以支持正確的決策。一門研究如何用數(shù)據(jù)支持決策的新學(xué)科應(yīng)運(yùn)而生,這就是“數(shù)據(jù)科學(xué)”。
數(shù)據(jù)科學(xué)是專門研究如何使數(shù)據(jù)變成信息進(jìn)而產(chǎn)生知識(shí)以支持判斷和決策的學(xué)問。它是一門跨學(xué)科的領(lǐng)域,是信息科學(xué)、計(jì)算機(jī)、統(tǒng)計(jì)學(xué),與其他自然科學(xué)和社會(huì)科學(xué)專業(yè)知識(shí)的結(jié)合。它包括大數(shù)據(jù)、小數(shù)據(jù)、有結(jié)構(gòu)數(shù)據(jù)、半結(jié)構(gòu)數(shù)據(jù)、無(wú)結(jié)構(gòu)數(shù)據(jù)。它的核心是智能決策,不僅是商業(yè)智能(Business Intelligence)而且是數(shù)據(jù)智能(Data Intelligence)。因此計(jì)算機(jī)、信息、統(tǒng)計(jì)、自然科學(xué)、社會(huì)科學(xué)的學(xué)生都可以成為數(shù)據(jù)科學(xué)家。重要的是三者(信息技術(shù)、統(tǒng)計(jì)分析、專業(yè)知識(shí))兼有。
周有光先生將人類思維和認(rèn)知的發(fā)展歸納為三階段:神學(xué)、玄學(xué)、科學(xué)。神學(xué)、玄學(xué)、科學(xué)是人類尋求對(duì)宇宙和世界萬(wàn)物的理解而采用的不同思維方式和認(rèn)知手段。人們往往只記住結(jié)論而忽視了思維方式和認(rèn)知手段這一本質(zhì)。神學(xué)尋求的是絕對(duì)結(jié)論。玄學(xué)尋求的是邏輯結(jié)論??茖W(xué)尋求的是可以被實(shí)證的結(jié)論。神學(xué)靠維護(hù)被認(rèn)可的絕對(duì)結(jié)論(信仰)而生存,受派別分歧和爭(zhēng)斗影響而演變和發(fā)展。玄學(xué)靠推論和分析方法的改變而演變和發(fā)展。科學(xué)靠不斷在新的證據(jù)面前修改和推翻原有結(jié)論中演變和發(fā)展。神學(xué)、玄學(xué)、科學(xué)是可以并存的,但在不同的社會(huì)發(fā)展階段誰(shuí)占主導(dǎo)地位則是不同的。
神學(xué)、玄學(xué)、科學(xué)有沖突也互有影響。神學(xué)的想象能給科學(xué)帶來(lái)靈感。玄學(xué)的推論能幫助科學(xué)拓展理論模式和分析方法。世界上還有很多問題是科學(xué)無(wú)法實(shí)證的。對(duì)這些問題人類需要靠神學(xué)和玄學(xué)的幫助來(lái)理解和解釋。
在現(xiàn)代社會(huì),科學(xué)是占主導(dǎo)地位的認(rèn)知手段,因而數(shù)據(jù)為依據(jù)的智能決策發(fā)揮著越來(lái)越大的作用。數(shù)據(jù)科學(xué)成為新興的學(xué)科。數(shù)據(jù)科學(xué)家也成為緊缺人才。
由于是新興的學(xué)科,數(shù)據(jù)科學(xué)的內(nèi)容界定眾說紛紜。筆者根據(jù)個(gè)人近年來(lái)對(duì)大數(shù)據(jù)理念的研究和多年從事知識(shí)應(yīng)用、數(shù)據(jù)采集、數(shù)據(jù)分析和決策支持的實(shí)踐經(jīng)驗(yàn),將數(shù)據(jù)科學(xué)包含的內(nèi)容總結(jié)如下,希望能起到拋磚引玉的作用。為了使其容通俗易懂,我們可以用大師傅做菜的過程來(lái)打個(gè)比喻。
巧婦難為無(wú)米之炊。大師傅要從選材開始。不但要知道材料的品種還要知道季節(jié)和產(chǎn)地。原料需要經(jīng)過清洗、整理、挑選、切割、搭配來(lái)為烹調(diào)做好準(zhǔn)備。每一道菜都需有菜譜。大師傅按菜譜烹調(diào),調(diào)火、放油、下料、翻轉(zhuǎn)、掌握火候恰到好處才能炒出一道色、香、味齊全的佳肴。
數(shù)據(jù)科學(xué)也要從原材料開始。首先是數(shù)據(jù)的基本概念,包括(1)什么是數(shù)據(jù)?(2)什么是數(shù)據(jù)科學(xué)?(3)數(shù)據(jù)分類(4)數(shù)據(jù)形態(tài) (5)數(shù)據(jù)獲得手段 (6)數(shù)據(jù)獲得渠道(7)數(shù)據(jù)質(zhì)量 (8)數(shù)據(jù)數(shù)量。
接下來(lái)是數(shù)據(jù)處理,包括(1)數(shù)據(jù)清理 (2)數(shù)據(jù)確認(rèn)(3)數(shù)據(jù)轉(zhuǎn)換(4)數(shù)據(jù)組織和存儲(chǔ)(5)確值處理(6)互操作性 (Interoperability)(7)數(shù)據(jù)安全(Data Security)。
再下來(lái)是要根據(jù)數(shù)據(jù)的性質(zhì)和特點(diǎn)選擇正確的分析方法(制定菜譜)。這里包括大數(shù)據(jù)和小數(shù)據(jù),具體內(nèi)容有(1)什么是大數(shù)據(jù)?(2)什么是小數(shù)據(jù)?(3)統(tǒng)計(jì)1.0 和統(tǒng)計(jì)2.0(4)大數(shù)據(jù)技術(shù)及其重要意義。
最后一步是數(shù)據(jù)分析(烹調(diào))包括(1)傳統(tǒng)統(tǒng)計(jì)分析(2)大數(shù)據(jù)分析:數(shù)據(jù)挖掘(3)人工智能(machine learning)(4)智能層次(Level of Intelligence)(5)動(dòng)態(tài)可視化分析(Dynamic Visual Analytics),等等。
形成一個(gè)完整的學(xué)科還需要實(shí)際的應(yīng)用案例。所以數(shù)據(jù)科學(xué)的應(yīng)用也是一個(gè)重要內(nèi)容,這包括(1)數(shù)據(jù)科學(xué)家的角色和職責(zé) ,(2)數(shù)據(jù)科學(xué)應(yīng)用案例--商業(yè)應(yīng)用、醫(yī)療衛(wèi)生信息、政府管理和決策,等等。
大數(shù)據(jù)熱過一陣后會(huì)降溫,但數(shù)據(jù)科學(xué)將不斷發(fā)展下去。不久的將來(lái)新一輪的數(shù)據(jù)處理和分析技術(shù)可能會(huì)替代大數(shù)據(jù)成為新聞焦點(diǎn)。數(shù)據(jù)科學(xué)仍可以把新出現(xiàn)的技術(shù)納入其中。不管技術(shù)如何發(fā)展,現(xiàn)代社會(huì)以科學(xué)實(shí)證為主導(dǎo)的認(rèn)知和決策理念會(huì)長(zhǎng)期繼續(xù)下去。因此研究如何用數(shù)據(jù)支持決策的數(shù)據(jù)科學(xué)正是方興未艾。
哈佛大學(xué)商業(yè)綜述(business review)月刊2012年10月載文預(yù)測(cè)“數(shù)據(jù)科學(xué)家將是 21世紀(jì)最性感的職業(yè)”。在美國(guó),數(shù)據(jù)科學(xué)家的年收入已超過律師和醫(yī)生,無(wú)怪乎有人驚呼“告訴你的孩子不要成為醫(yī)生而要成為數(shù)據(jù)科學(xué)家”。很多大公司對(duì)目前就職的數(shù)據(jù)科學(xué)家并不是很滿意。因?yàn)樗麄兂3J侵挥袉雾?xiàng)專長(zhǎng)——或是計(jì)算機(jī)專家只懂人工智能,或是統(tǒng)計(jì)專家擅長(zhǎng)分析,或是領(lǐng)域?qū)<易⒅匾鉀Q的問題。最受歡迎的數(shù)據(jù)科學(xué)家是三者皆能但不一定是樣樣都是專家。這種三合一的人才正是數(shù)據(jù)科學(xué)要培養(yǎng)的下一代數(shù)據(jù)科學(xué)家。