讓我們拋開炒作,因?yàn)楹芏嗳丝赡芎臀覀円粯樱紝?shù)據(jù)科學(xué)心存懷疑。之所以一上來就講這些,是想讓你知道:我們也和你一樣!假如你也心存疑慮,說明你也很可能會(huì)貢獻(xiàn)一份力量,推動(dòng)數(shù)據(jù)科學(xué)的健康發(fā)展,使其對社會(huì)產(chǎn)生積極的影響,也使數(shù)據(jù)科學(xué)這門學(xué)科趨于正統(tǒng),在眾多學(xué)科中能占有一席之地。
讓我們先來細(xì)數(shù)大數(shù)據(jù)和數(shù)據(jù)科學(xué)之所以這樣讓人如墜云里霧里的原因。
(1) 大多數(shù)基本的術(shù)語都缺乏嚴(yán)格定義。究竟什么是大數(shù)據(jù)?數(shù)據(jù)科學(xué)又是什么意思?大數(shù)據(jù)和數(shù)據(jù)科學(xué)之間有什么關(guān)系?數(shù)據(jù)科學(xué)就是關(guān)于大數(shù)據(jù)的科學(xué)嗎?只有像谷歌和 Facebook 這樣的高科技企業(yè)才用得到數(shù)據(jù)科學(xué)嗎?為什么有人認(rèn)為大數(shù)據(jù)是一個(gè)交叉學(xué)科(比如天文學(xué)、金融學(xué)、科技等),但數(shù)據(jù)科學(xué)卻只是科技界的事兒?大數(shù)據(jù),多大才是大?這些術(shù)語及概念如此含混不清,簡直毫無意義。
(2) 對于數(shù)據(jù)科學(xué)領(lǐng)域的研究者,不管是在學(xué)術(shù)界還是工業(yè)界,公眾都缺乏敬意。事實(shí)上,他們在這一領(lǐng)域內(nèi)辛勤工作了很多年,而這些工作是繼承了各個(gè)領(lǐng)域的前輩們數(shù)十年甚至數(shù)百年的工作成果,這些領(lǐng)域包括統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)、工程學(xué)以及其他學(xué)科。而媒體傳播給公眾的信息卻是這樣的:機(jī)器學(xué)習(xí)算法是上個(gè)禮拜才發(fā)明出來的,谷歌出現(xiàn)之前都不存在所謂的大數(shù)據(jù)。這簡直荒謬,很多正在使用的方法和技術(shù),還有我們面臨的挑戰(zhàn),都不過是在過去已有的方法、技術(shù)和挑戰(zhàn)上演變而來的。我們并不否認(rèn)新事物和新技術(shù)的出現(xiàn),只是覺得應(yīng)該對歷史和前人的研究成果保持必要的敬意。
(3) 媒體瘋了。人們將各種各樣的桂冠加諸數(shù)據(jù)科學(xué)家的頭上,人們形容他們是掌握了宇宙奧秘的魔法師,其瘋狂程度堪比金融危機(jī)之前。天花亂墜的宣傳很容易掩蓋真相、歪曲事實(shí)。這些宣傳的噪聲越多,真正有效的信息就越少。因此,若“大數(shù)據(jù)”被媒體吹得越久,公眾越容易被誤導(dǎo),越難獲知這一概念背后真正有益于社會(huì)的一面(如果有的話)。
(4) 統(tǒng)計(jì)學(xué)家覺得他們正在干的事就是數(shù)據(jù)科學(xué)。換句話說,這本來就是他們的飯碗。親愛的讀者們,請?jiān)O(shè)身處地替統(tǒng)計(jì)學(xué)家們想想,有人搶自己的飯碗是什么感受。媒體也常常將數(shù)據(jù)科學(xué)輕描淡寫為統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)在科技界的簡單應(yīng)用。我們會(huì)在書中闡明,不是說將統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)這些“舊酒”裝進(jìn)新瓶里,就叫作數(shù)據(jù)科學(xué)。它絕對有資格作為一個(gè)獨(dú)立的學(xué)科存在。
(5) 所有自稱為科學(xué)的都不是真正的科學(xué)。這句話或許有些道理,但不代表數(shù)據(jù)科學(xué)這一術(shù)語毫無意義,它代表的可能不是科學(xué),而是某種技術(shù)。