人類在認(rèn)識(shí)自然規(guī)律發(fā)展的過(guò)程中,經(jīng)歷了以下幾個(gè)過(guò)程:一是實(shí)驗(yàn)科學(xué)范式,即觀測(cè)、實(shí)驗(yàn)、試驗(yàn)發(fā)現(xiàn)現(xiàn)象,總結(jié)規(guī)律,數(shù)據(jù)量小;二是理論科學(xué)范式,形成假說(shuō)、通過(guò)觀測(cè)、實(shí)驗(yàn)、試驗(yàn)數(shù)據(jù),驗(yàn)證理論,數(shù)據(jù)量小;三是計(jì)算科學(xué)范式,依據(jù)理論模型,進(jìn)行計(jì)算模擬,利用實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證計(jì)算,數(shù)據(jù)量大;四是數(shù)據(jù)密集型范式,也就是人們經(jīng)常談?wù)摰拇髷?shù)據(jù)。
數(shù)據(jù)科學(xué)發(fā)展歷程
進(jìn)入到大數(shù)據(jù)時(shí)代之后,地學(xué)研究要采取什么樣的模式呢?我們不妨先回顧一下數(shù)據(jù)科學(xué)的體制,數(shù)據(jù)科學(xué)包含了什么,以及數(shù)學(xué)科學(xué)家應(yīng)該做什么。
1947年,Turkey提出了“bit”這個(gè)術(shù)語(yǔ)。1962年他又提出數(shù)據(jù)是一門學(xué)科,數(shù)據(jù)分析是計(jì)算機(jī)的一次飛躍。
1968年,圖靈獎(jiǎng)獲得者彼得·諾爾首次對(duì)數(shù)據(jù)科學(xué)進(jìn)行定義,他認(rèn)為數(shù)據(jù)科學(xué)是處理數(shù)據(jù)的科學(xué)。1977年他又提出,將傳統(tǒng)統(tǒng)計(jì)方法學(xué)、現(xiàn)代計(jì)算機(jī)技術(shù)和領(lǐng)域內(nèi)專家知識(shí)聯(lián)系起來(lái)以完成將數(shù)據(jù)轉(zhuǎn)換為信息和知識(shí)。
1989年,數(shù)據(jù)分析與挖掘?qū)<褿regoryPiatetsky-Shapiro提出了知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘,他組織并領(lǐng)導(dǎo)了第一個(gè)Knowledge Discovery in Databases(KDD)研討會(huì)。
1994年9月,BusinessWeek刊登了關(guān)于“Database Marketing”的封面故事:很多公司正在收集關(guān)于你的海量信息,將這些信息處理后來(lái)預(yù)測(cè)你對(duì)一個(gè)產(chǎn)品的購(gòu)買需求,并用那些知識(shí)來(lái)制定精確適合你的營(yíng)銷策略。這也孕育著大數(shù)據(jù)的出現(xiàn)。1996年,International Federation of Classification Societies(IFCS)成員在他們兩年一次的會(huì)議中于日本神戶會(huì)面,“數(shù)據(jù)科學(xué)(data science)”首次被用于會(huì)議題目中。Usama Fayyad強(qiáng)調(diào)知識(shí)發(fā)現(xiàn)過(guò)程也是有步驟和程序的,比如數(shù)據(jù)的準(zhǔn)備、篩選、清理、整合等過(guò)程。
1997年,C.F.Jeff Wu教授呼吁將統(tǒng)計(jì)學(xué)更名為數(shù)據(jù)科學(xué),將統(tǒng)計(jì)學(xué)家更名為數(shù)據(jù)科學(xué)家。同時(shí)他把之前提到的知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘,轉(zhuǎn)化為數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)。
2001年,William S. Cleveland發(fā)表了“Data Science:An Action Plan forExpanding the Technical Areas of the Field ofStatistics”,其中提到了數(shù)據(jù)科學(xué)包含多個(gè)學(xué)科,或者數(shù)據(jù)科學(xué)家包含多個(gè)學(xué)科的人,它主要解決兩個(gè)問(wèn)題:一統(tǒng)計(jì)界里面的隨機(jī)數(shù)據(jù)模型和計(jì)算模型,后來(lái)統(tǒng)計(jì)協(xié)會(huì)采取了數(shù)據(jù)模型的概念。
2002年數(shù)據(jù)科學(xué)期刊發(fā)行,包括收集、分析、建模、應(yīng)用等有關(guān)數(shù)據(jù)科學(xué)方面的研究。
2005年,企業(yè)進(jìn)入到數(shù)據(jù)的分析中,企業(yè)通過(guò)數(shù)據(jù)分析增加自身競(jìng)爭(zhēng)力。同年9月,The National Science Board刊登了“Long-lived Digital Data Collections:Enabling Research and Education in the 21stCentury”,該報(bào)告的眾多推薦信之一寫(xiě)道:“NSF與大多數(shù)數(shù)據(jù)管理者和協(xié)會(huì)保持合作。它應(yīng)當(dāng)發(fā)展并完善數(shù)據(jù)科學(xué)家的職業(yè)生涯以保證包含足量高水平數(shù)據(jù)科學(xué)家的研究機(jī)構(gòu)正常運(yùn)行。”
2007年,Research Center for Dataologyand Data Science在復(fù)旦大學(xué)建立。
2009年,Yangyong Zhu和Yun Xiong發(fā)表了“Introduction to Dataology andData Science”,其中提出“與自然科學(xué)和社會(huì)科學(xué)不同,數(shù)據(jù)學(xué)和數(shù)據(jù)科學(xué)使用互聯(lián)網(wǎng)上的數(shù)據(jù)作為研究對(duì)象。它是一門新興科學(xué)。”
2009年還肯定了數(shù)據(jù)科學(xué)家的重要性,指出數(shù)據(jù)科學(xué)是未來(lái)10年的重要技能,而且這個(gè)技能也是保證一個(gè)研究機(jī)構(gòu)能夠正常發(fā)展的人力資源。強(qiáng)調(diào)了對(duì)數(shù)據(jù)理解人才培養(yǎng)的重要性,專家必須學(xué)會(huì)并適應(yīng)新的數(shù)據(jù)科學(xué)研究技術(shù),非專家需要提高信息技能素養(yǎng)。
2010年,進(jìn)一步討論數(shù)據(jù)包含的一些內(nèi)涵,比如數(shù)據(jù)科學(xué)應(yīng)包含計(jì)算科學(xué)、數(shù)學(xué)、統(tǒng)計(jì)學(xué)、數(shù)據(jù)挖掘、圖形設(shè)計(jì)、可視化等。
2012,出現(xiàn)一種新的提法--數(shù)據(jù)科學(xué)家是21世紀(jì)最性感的職業(yè)。這也說(shuō)明盡管數(shù)據(jù)科學(xué)沒(méi)有成體系,但是數(shù)據(jù)科學(xué)可以說(shuō)已經(jīng)建立起來(lái)。涉及的學(xué)科、應(yīng)用領(lǐng)域以及數(shù)據(jù)相關(guān)領(lǐng)域包括:數(shù)學(xué)、算法、統(tǒng)計(jì)、編程、分析、挖掘、建模專業(yè),以及社會(huì)、健康、大眾等眾多專業(yè)。
主要來(lái)源與特征
美國(guó)國(guó)家科學(xué)研究委員會(huì)(NRC)2012年的報(bào)告指出,數(shù)據(jù)是科學(xué)發(fā)現(xiàn)的基礎(chǔ)。擁有高精度和高穩(wěn)定度的觀測(cè)數(shù)據(jù)是理解氣候系統(tǒng)行為和發(fā)展、評(píng)價(jià)地球系統(tǒng)模式、探尋極端天氣事件成因以及理解氣候長(zhǎng)期變化趨勢(shì)原因的必要條件。
在全球大科學(xué)計(jì)劃和國(guó)內(nèi)大科學(xué)計(jì)劃的推動(dòng)下,我們的地學(xué)觀測(cè)的數(shù)據(jù)已經(jīng)形成,多處觀測(cè)、多維度觀測(cè)、多過(guò)程觀測(cè)、多學(xué)科觀測(cè),這些觀測(cè)形成了多尺度觀測(cè)研究以及整合研究,對(duì)理論的驗(yàn)證和跨學(xué)科的融合,提供研究數(shù)據(jù)資源。通過(guò)這些數(shù)據(jù)資源的支撐形成對(duì)地學(xué)科學(xué)問(wèn)題的一些新認(rèn)識(shí)、新的發(fā)現(xiàn)以及建立地學(xué)研究的新方法。例如,氣侯科學(xué)的研究推動(dòng)了全球變化研究的發(fā)展。美國(guó)科學(xué)研究分會(huì)指出了數(shù)據(jù)科學(xué)發(fā)現(xiàn)的基礎(chǔ),預(yù)計(jì)到2020年,基于地球系統(tǒng)數(shù)值模式的全球變化預(yù)測(cè)資料的數(shù)據(jù)量將達(dá)到50PB,遙感衛(wèi)星數(shù)據(jù)將達(dá)到50PB,其他類型數(shù)據(jù)將達(dá)到2PB。這些數(shù)據(jù)到2030年將分別上升為185PB、150PB和5PB。
新一代數(shù)字地球不是一個(gè)單一的系統(tǒng),而是多個(gè)基礎(chǔ)設(shè)施連接的基于開(kāi)放共享的平臺(tái),通過(guò)傳感器網(wǎng)絡(luò)和環(huán)境感知系統(tǒng)主動(dòng)收集地球表面的各種信息。數(shù)字地球以數(shù)字化的數(shù)據(jù)為基礎(chǔ),集成了海量的多分辨率、多維度、動(dòng)態(tài)變化的時(shí)空數(shù)據(jù),以及社會(huì)、經(jīng)濟(jì)、超級(jí)計(jì)算、模型、虛擬地球等。涉及的數(shù)據(jù)包括圖像、視頻、文檔、地理位置、空間對(duì)地觀測(cè)數(shù)據(jù)、地表觀測(cè)數(shù)據(jù)、科學(xué)研究模型、社會(huì)、經(jīng)濟(jì)。
關(guān)于遙感對(duì)地觀測(cè)數(shù)據(jù)來(lái)源,一般而言衛(wèi)星觀測(cè)需要滿足三維、定量、全球、全天時(shí)、全天候的要求。感儀器探測(cè)性能向高空間分辨率、高時(shí)間分辨、高光譜分辨率、高輻射精度發(fā)展。成像方式從被動(dòng)探測(cè)到主動(dòng)探測(cè),探測(cè)譜段從紅外、可見(jiàn)光、紫外到微波探測(cè)。傳感器要求可以獲取多源(多個(gè)衛(wèi)星平臺(tái))、多譜段(不同波段)的衛(wèi)星資料。
例如,針對(duì)一條冰川的觀察,有關(guān)冰川物質(zhì)平衡在線觀測(cè)、冰川表面氣候要素在線觀測(cè)、遙感觀測(cè)、無(wú)線傳感網(wǎng)絡(luò)、視頻觀測(cè)、測(cè)地雷達(dá)觀測(cè)、3D 激光掃描、冰川物性分析、冰川化學(xué)分析、冰芯分析、各類同位素分析等(如圖1所示)。從中可以看出其特點(diǎn):觀測(cè)要速度快、觀測(cè)實(shí)時(shí)數(shù)據(jù)傳輸、觀測(cè)多模態(tài)、觀測(cè)數(shù)據(jù)量大。
我們可以看到,在信息技術(shù)的支持下,實(shí)現(xiàn)實(shí)時(shí)觀測(cè)、實(shí)時(shí)傳輸、加密觀測(cè)下,地學(xué)科學(xué)數(shù)據(jù)體現(xiàn)出以下特征:一是數(shù)據(jù)體量非常大,二是數(shù)據(jù)類型非常多,三是變化速度非???,四是對(duì)數(shù)據(jù)認(rèn)識(shí)和管理要準(zhǔn)確。地學(xué)科學(xué)數(shù)據(jù)符合大數(shù)據(jù)的基本特征,可以說(shuō)地學(xué)科學(xué)研究已經(jīng)進(jìn)入了大數(shù)據(jù)科學(xué)研究時(shí)代。
面臨的科學(xué)和技術(shù)問(wèn)題
圍繞上述這些問(wèn)題,在大數(shù)據(jù)自身當(dāng)中會(huì)存在什么樣的問(wèn)題,應(yīng)該從哪些方面進(jìn)行科學(xué)大數(shù)據(jù)的研究。不妨從以下幾個(gè)方面來(lái)看:一是從數(shù)據(jù)價(jià)值鏈的各個(gè)環(huán)節(jié)進(jìn)行研究,即地學(xué)大數(shù)據(jù)獲取、傳輸、保存工具、處理、分析、產(chǎn)品、共享、服務(wù)、應(yīng)用;二是從數(shù)據(jù)中心基本結(jié)構(gòu)及數(shù)據(jù)流來(lái)研究,例如數(shù)據(jù)的交匯、質(zhì)量控制,數(shù)據(jù)的存儲(chǔ),存儲(chǔ)環(huán)境、存儲(chǔ)技術(shù)以及數(shù)據(jù)檔案的歸檔等。
從大數(shù)據(jù)的理論和方法研究上,我們認(rèn)為需要從組織結(jié)構(gòu)、質(zhì)量控制理論問(wèn)題、計(jì)算理論與方法、計(jì)算環(huán)境以及獲取和訪問(wèn)的理論以及計(jì)算技術(shù)理論、建模支持環(huán)境等方面的進(jìn)行研究。從地學(xué)大數(shù)據(jù)支撐的技術(shù)體系上來(lái)看,需要從分析技術(shù)方面、預(yù)處理技術(shù)、地學(xué)大數(shù)據(jù)的同化技術(shù)以及多資源的協(xié)同技術(shù)等方面進(jìn)行研究。
簡(jiǎn)單地說(shuō),一是從地學(xué)大數(shù)據(jù)結(jié)構(gòu)內(nèi)在規(guī)律研究;二是從地學(xué)大數(shù)據(jù)計(jì)算理論、方法研究;三是從地學(xué)大數(shù)據(jù)質(zhì)量控制理論與方法研究;四是從地學(xué)大數(shù)據(jù)管理、分析、求解原理與方法研究;五是從地學(xué)大數(shù)據(jù)計(jì)算的計(jì)算環(huán)境研究;六是從地學(xué)大數(shù)據(jù)管理、訪問(wèn)、存取方法與技術(shù);七是從地學(xué)大數(shù)據(jù)獲取方法與技術(shù);八是從大數(shù)據(jù)的科學(xué)計(jì)算技術(shù)研究。
如何獲取一些大數(shù)據(jù)的技術(shù),比如互聯(lián)網(wǎng)的大數(shù)據(jù)怎么獲取,物聯(lián)網(wǎng)的大數(shù)據(jù)怎么獲取,對(duì)地觀察的數(shù)據(jù)怎么獲取,長(zhǎng)時(shí)間觀測(cè)性的大數(shù)據(jù)怎么獲取,以及數(shù)值仿真大數(shù)據(jù)怎么獲取等。其中的關(guān)鍵一個(gè)是高質(zhì)量的獲取,另一個(gè)是價(jià)值最大。該數(shù)據(jù)量最小,有價(jià)的數(shù)據(jù)量最大,無(wú)價(jià)的價(jià)值量最小,并且樣本和應(yīng)用之間的偏差最小。同時(shí),也要進(jìn)行有關(guān)支撐和保障地球科學(xué)大數(shù)據(jù)的應(yīng)用計(jì)算技術(shù)方面的標(biāo)準(zhǔn),如可靠性、大規(guī)模、高性能、應(yīng)用性、集群虛擬化、大規(guī)模分布式等。
背景下研究模式的思考
大數(shù)據(jù)背景下的研究模式已經(jīng)發(fā)生了一些變化,科學(xué)研究由假設(shè)驅(qū)動(dòng)已經(jīng)轉(zhuǎn)變?yōu)榇髷?shù)據(jù)驅(qū)動(dòng)。假設(shè)驅(qū)動(dòng)的研究模式是設(shè)定假設(shè),然后尋找數(shù)據(jù)來(lái)證明假設(shè);大數(shù)據(jù)驅(qū)動(dòng)研究模式是先從數(shù)據(jù)中找現(xiàn)象,然后再解釋規(guī)律,這兩個(gè)已經(jīng)發(fā)生了逆轉(zhuǎn)。
同時(shí),學(xué)術(shù)組織結(jié)構(gòu)也發(fā)生了變化。現(xiàn)在都在提“互聯(lián)網(wǎng)+”,實(shí)際上在大數(shù)據(jù)時(shí)代也提到了“大數(shù)據(jù)+”,因?yàn)樵诖髷?shù)據(jù)的環(huán)境下,隨著數(shù)據(jù)共享機(jī)制的建立,以及提供了完善的信息化支撐環(huán)境之后,只要有大數(shù)據(jù),就可以開(kāi)始科學(xué)研究。
大數(shù)據(jù)將改變地學(xué)科學(xué)研究,也將改變學(xué)術(shù)界研究模式。例如,依賴數(shù)據(jù)流的地表過(guò)程研究新模式出現(xiàn)與應(yīng)用。在這里面我們需要構(gòu)建一個(gè)實(shí)驗(yàn)平臺(tái)、觀測(cè)實(shí)驗(yàn)平臺(tái)、數(shù)據(jù)共享平臺(tái)和模型模擬平臺(tái)(如圖2所示)。
括地講,需要建立一個(gè)云基礎(chǔ)設(shè)施環(huán)境。比如數(shù)據(jù)收集,我們通常叫做虛擬聯(lián)合觀測(cè),通過(guò)這樣的一個(gè)數(shù)據(jù)管理共享以及計(jì)算和分析的云計(jì)算環(huán)境,以及模型研究和數(shù)據(jù)模擬的一些應(yīng)用,來(lái)支撐研究工作。
同時(shí),還建立了具有特色模型集成和構(gòu)建社區(qū),在此環(huán)境下為大家提供圖形化的建模環(huán)境,通過(guò)模塊化的資源構(gòu)建所需要的模型,這是模塊化構(gòu)建的一個(gè)過(guò)程。基于這些,通過(guò)數(shù)據(jù)模型計(jì)算,再加上可視化分析,我們已經(jīng)得到了一些案例。
大數(shù)據(jù)及其研究,代表了一個(gè)時(shí)代,代表了一種思維,這是一個(gè)技術(shù)潮流??茖W(xué)大數(shù)據(jù)作為科學(xué)研究和工程實(shí)踐,相關(guān)大數(shù)據(jù)已經(jīng)成為科學(xué)發(fā)現(xiàn)和知識(shí)創(chuàng)新的新源泉,改變著人類的生活和對(duì)世界深層的認(rèn)識(shí)。大數(shù)據(jù)應(yīng)該發(fā)展成為國(guó)家的戰(zhàn)略,并且它正在改變傳統(tǒng)的模式,是我們認(rèn)識(shí)自然的鑰匙,也是發(fā)現(xiàn)知識(shí)的新引擎。