科學(xué)大數(shù)據(jù)應(yīng)用場景及管理需求
科學(xué)大數(shù)據(jù)的應(yīng)用場景及典型特征
科學(xué)數(shù)據(jù)是科研活動的輸入、輸出和資產(chǎn),是證實或者證偽科學(xué)發(fā)現(xiàn)或科學(xué)觀點事實、證據(jù)或者論證推理的基礎(chǔ)。它包括數(shù)字化觀測、科學(xué)監(jiān)測等來自儀器設(shè)備或傳感器的數(shù)據(jù),計算模擬與模型輸出的數(shù)據(jù),對情景或現(xiàn)象的描述,對行為的觀測或定性描述,以及用于管理或者商業(yè)目的的統(tǒng)計數(shù)據(jù)等。目前科學(xué)大數(shù)據(jù)普遍存在于各個領(lǐng)域的科學(xué)研究,尤其在天文學(xué)、高能物理、微生物學(xué)等大科學(xué)領(lǐng)域,科學(xué)大數(shù)據(jù)的應(yīng)用場景尤為明顯。
在天文學(xué)領(lǐng)域,中法合作伽馬暴探測天文衛(wèi)星SVOM?的關(guān)鍵地面設(shè)備?GWAC?的每個相機?15?s?內(nèi)會產(chǎn)生?32?MB?的天區(qū)圖,并于下一個天區(qū)圖產(chǎn)生之前完成點源提取、交叉認證等操作,最終在?3—5?s?內(nèi)完成?100?萬—10?000?萬行星表數(shù)據(jù)的插入,10?億—100?億行星表數(shù)據(jù)的?JOIN?運算。
在高能物理領(lǐng)域,歐洲核子物理研究組織構(gòu)建的大型強子對撞機(LHC)每秒進行?6?億次碰撞實驗,產(chǎn)生?6?PB?事例數(shù)據(jù),經(jīng)事例篩選后存儲大約?1?GB?實驗數(shù)據(jù)。目前?LHC?產(chǎn)生的實驗數(shù)據(jù)已超過?200?PB,未來?5?年?LHC?產(chǎn)生的數(shù)據(jù)將會超過?1?EB,事例數(shù)將達到千萬億級別,需在?10?s?內(nèi)完成百萬分之一的事例篩選操作。
在微生物學(xué)領(lǐng)域,中國科學(xué)院微生物研究所世界數(shù)據(jù)中心(WDCM)對?Taxonomy、GenBank、Gene?等?36?個數(shù)據(jù)源進行實體識別、歧義消除、本體構(gòu)建等數(shù)據(jù)處理操作,構(gòu)建了包含?830?萬個節(jié)點、1.3?億條邊的知識圖譜結(jié)構(gòu)。預(yù)計未來?5?年內(nèi),WDCM?還將匯聚開放生物資源、文獻、序列和疾病等數(shù)據(jù),在?10?000?多個數(shù)據(jù)源中構(gòu)建?100?億條關(guān)聯(lián)的知識圖譜數(shù)據(jù),并要求?1?s?內(nèi)完成?100?億條關(guān)聯(lián)數(shù)據(jù)的?6?步關(guān)聯(lián)查詢。
自?2011?年麥肯錫年度總結(jié)報告中提出“大數(shù)據(jù)”概念以來,學(xué)術(shù)界和工業(yè)界對大數(shù)據(jù)定義一直存在爭議,這些爭議主要來自不同領(lǐng)域中大數(shù)據(jù)的特征體現(xiàn)。目前學(xué)術(shù)界公認大數(shù)據(jù)具有“4V”特征——體量大(volume)、生成快(velocity)、多樣性(variety)和密度低(value),科學(xué)大數(shù)據(jù)應(yīng)用場景充分體現(xiàn)了這“4V”特征,并具有以下獨特的性質(zhì)。
科學(xué)發(fā)現(xiàn)的準確性建立在海量實驗數(shù)據(jù)的重復(fù)計算驗證之上。例如,“上帝粒子”和暗物質(zhì)發(fā)現(xiàn)的正確性經(jīng)過了對數(shù)百?PB?量級數(shù)據(jù)的多次重復(fù)計算,多次驗證重復(fù)出現(xiàn)同一結(jié)論時才能發(fā)布結(jié)論。
短時間內(nèi)科學(xué)實驗會產(chǎn)生大量觀測數(shù)據(jù)并進行流程化處理,實驗數(shù)據(jù)會持續(xù)進入持久化存儲設(shè)備進行長周期存儲。例如,GWAC?在?15?s?內(nèi)完成?40×32?MB?天區(qū)圖的點源檢測、入庫等操作,產(chǎn)生的所有數(shù)據(jù)將永久存儲。
科學(xué)現(xiàn)象觀測的量化指標存在圖像、語音、時間序列等形式,數(shù)據(jù)分布在不同國家和機構(gòu)中,科學(xué)研究需要整合這些多源異構(gòu)數(shù)據(jù)。例如,WDCM?整合?36?個包括文本、網(wǎng)頁、醫(yī)療記錄在內(nèi)的數(shù)據(jù)源完成知識圖譜構(gòu)建。
科學(xué)數(shù)據(jù)來自大科學(xué)裝置、互聯(lián)網(wǎng)、國家機構(gòu)等,數(shù)據(jù)與國家利益和個人隱私相關(guān),數(shù)據(jù)共享和挖掘分析會產(chǎn)生更大的社會推進作用。例如,“數(shù)字絲路”(DBAR)國際科學(xué)計劃涉及“一帶一路”沿線?65?個國家共享的地理、農(nóng)業(yè)、社會輿論等數(shù)據(jù),挖掘分析這些數(shù)據(jù)可為地區(qū)、國家的決策提供重要參考,然而如何分享成果收益、保護數(shù)據(jù)隱私是該計劃面臨的一個重要問題。
科學(xué)大數(shù)據(jù)的這些性質(zhì)對數(shù)據(jù)管理系統(tǒng)提出了巨大挑戰(zhàn)。
科學(xué)大數(shù)據(jù)管理的挑戰(zhàn)
科學(xué)大數(shù)據(jù)管理涉及數(shù)據(jù)的收集、存儲、處理、分析、可視化和共享等全生命周期管理。如圖?1?所示,科學(xué)應(yīng)用首先從科學(xué)裝置接入或從互聯(lián)網(wǎng)采集大量異構(gòu)實驗或觀測數(shù)據(jù),然后經(jīng)過初步過濾、轉(zhuǎn)換等數(shù)據(jù)預(yù)處理操作存入持久化設(shè)備形成原始科學(xué)數(shù)據(jù)。針對具體科研目標,應(yīng)用對原始數(shù)據(jù)進一步運算抽取實驗特征形成特征數(shù)據(jù)。科學(xué)應(yīng)用對特征數(shù)據(jù)整合挖掘分析形成科學(xué)發(fā)現(xiàn)量化指標,并通過可視化的方法將科學(xué)發(fā)現(xiàn)展現(xiàn)出來。最后整個流程中產(chǎn)生的所有數(shù)據(jù)都將存檔、發(fā)布以備將來查詢、驗證等科研目標使用。
科學(xué)大數(shù)據(jù)管理存在常見的“4V”問題,同時也具有獨特的性質(zhì),這些性質(zhì)決定了科學(xué)大數(shù)據(jù)管理系統(tǒng)生命周期中面臨?4?個方面的挑戰(zhàn)(SPUS)。
規(guī)模動態(tài)化(Scale Dynamic)。科學(xué)實驗持續(xù)產(chǎn)生海量科學(xué)數(shù)據(jù),并需進行長周期持久化存儲。比如上文中提到的大部分科學(xué)研究項目(如?GWAC、LHC等)每秒產(chǎn)生?GB?量級的觀測數(shù)據(jù),并且數(shù)據(jù)無失效期,然而科研機構(gòu)卻無法事先確定存儲和計算資源的配置以最優(yōu)地滿足科學(xué)應(yīng)用需求。因此,如何彈性動態(tài)地為這些數(shù)據(jù)分配存儲空間和數(shù)據(jù)處理資源是科學(xué)大數(shù)據(jù)管理需要面對的一個重大挑戰(zhàn)。
流水線管理(Pipeline Management)??茖W(xué)實驗有嚴密的實驗步驟,科學(xué)裝置產(chǎn)生的海量原始科學(xué)數(shù)據(jù)會經(jīng)過大量的特征提取、轉(zhuǎn)換、分析等數(shù)據(jù)加工操作最終產(chǎn)出科研成果。以?GWAC?新星發(fā)現(xiàn)應(yīng)用為例,原始數(shù)據(jù)進入系統(tǒng)以后,系統(tǒng)需要完成特征提取、交叉認證等嚴密的數(shù)據(jù)處理操作;新星預(yù)警發(fā)生后,系統(tǒng)需要溯源到預(yù)警產(chǎn)生的特征記錄、天區(qū)圖、鏡頭等并對它們進行反復(fù)確認。此外,同一個科學(xué)裝置下也會出現(xiàn)大量類似的實驗流程,因此有效地創(chuàng)建、執(zhí)行、管理這些實驗步驟和數(shù)據(jù)將極大提高科學(xué)實驗的效率。
統(tǒng)一訪問(Unified Access)。大科學(xué)應(yīng)用經(jīng)常會對不同領(lǐng)域、不同機構(gòu)的異構(gòu)數(shù)據(jù)進行融合挖掘分析。以中國科學(xué)家發(fā)起的?DBAR?國際科學(xué)計劃為例,為了給地區(qū)決策提供參考,需要獲取天、空、地綜合數(shù)據(jù)資源構(gòu)建共享的地球大數(shù)據(jù)平臺。這其中涉及衛(wèi)星遙感數(shù)據(jù)、氣候觀測站數(shù)據(jù)、生物觀測站數(shù)據(jù)以及社交網(wǎng)絡(luò)中的輿論熱點數(shù)據(jù)等異構(gòu)數(shù)據(jù)的融合管理。因此,如何用統(tǒng)一的方式訪問多源異構(gòu)數(shù)據(jù)將極大地提升科學(xué)發(fā)現(xiàn)的價值和規(guī)模。
共享管理(Sharing Management)??茖W(xué)實驗產(chǎn)生的成果數(shù)據(jù)以及中間數(shù)據(jù)通過互聯(lián)開放共享以便集全世界科學(xué)家的力量進行實驗驗證、模型改進等后續(xù)科學(xué)研究,比如全世界物理學(xué)家通過互聯(lián)網(wǎng)從?LHC?中獲取數(shù)據(jù)進行粒子發(fā)現(xiàn)實驗,并通過互聯(lián)網(wǎng)共享科研成果。科學(xué)數(shù)據(jù)開放性帶來的重大問題有:數(shù)據(jù)提供者與科研人員如何合理劃分科研成果、數(shù)據(jù)提供者著作權(quán)認證和激勵機制、共享數(shù)據(jù)的隱私保護等。如果不能妥善解決這些問題,將影響科研人員的積極性和科研生態(tài)圈的健康發(fā)展。
科學(xué)大數(shù)據(jù)管理系統(tǒng)體系架構(gòu)
科學(xué)大數(shù)據(jù)管理系統(tǒng)主要由?4?個核心部分構(gòu)成:計算和存儲管理、數(shù)據(jù)流水線管理、數(shù)據(jù)融合查詢管理和數(shù)據(jù)共享管理,系統(tǒng)體系架構(gòu)如圖?2?所示。計算和存儲管理組件需要支持海量數(shù)據(jù)的存儲和處理,并隨著數(shù)據(jù)量增長動態(tài)地擴展其存儲和處理能力;數(shù)據(jù)處理流程統(tǒng)一管理組件需要支持數(shù)據(jù)流水線的數(shù)據(jù)接入、執(zhí)行、溯源和分享等一站式統(tǒng)一管理;數(shù)據(jù)融合管理組件需要提供對多源異構(gòu)數(shù)據(jù)的統(tǒng)一查詢分析接口;數(shù)據(jù)共享管理組件需要規(guī)范科學(xué)發(fā)現(xiàn)的權(quán)益劃分、數(shù)據(jù)共享的隱私保護與激勵機制。
計算和存儲管理組件。即計算和存儲資源隨上層應(yīng)用負載規(guī)模的變化而彈性伸縮,從而達到處理時間與資源投入的比例最優(yōu)化。目前,彈性伸縮分為漸進式和定量式兩種方案。漸進式伸縮方法監(jiān)控上層應(yīng)用對底層計算和存儲資源的競爭度,動態(tài)地增加或縮減底層資源。例如,在?AWS?云平臺的?E-MapReduce?集群上運行的?MapReduce?作業(yè)對資源的競爭度是集群剩余可用內(nèi)存的數(shù)量,競爭度超過閾值會將新計算或存儲節(jié)點納入集群從而完成集群的自動擴容。定量式伸縮方法是通過預(yù)估目標應(yīng)用的計算和存儲資源需求,提前確定應(yīng)用的計算和存儲資源規(guī)模。與漸進式伸縮相比,定量式伸縮的反應(yīng)時間較短,然而定量式伸縮方法高度依賴對目標應(yīng)用的計算和對存儲資源需求的準確預(yù)估,如通過建立目標應(yīng)用的負載模型預(yù)估系統(tǒng)的計算和存儲資源。
數(shù)據(jù)流水線管理組件。通過對數(shù)據(jù)處理流程的抽象,將數(shù)據(jù)處理過程映射為流水線中的若干邏輯處理單元,從而對數(shù)據(jù)處理過程進行規(guī)范和統(tǒng)一管理。通常情況下,流水線中?1?個處理單元代表?1?個函數(shù)、WebService?或?SQL?語句等,處理單元的輸出可以作為其他?1?個或多個處理單元的輸入;通過分支、循環(huán)等方式,這些處理單元組裝在一起統(tǒng)一管理完成科學(xué)發(fā)現(xiàn)的流程。流水線管理與工作流、指令流等有相似的形式化表示,如?Pi?代數(shù)、Petri?網(wǎng)等,通過這些流水線形式化表示,系統(tǒng)可在理論上保證執(zhí)行過程的準確性并對異常進行捕獲處理。在實際應(yīng)用中,除了保證流水線的正確運行之外,流水線管理還需要解決數(shù)據(jù)接入、數(shù)據(jù)溯源、中間數(shù)據(jù)轉(zhuǎn)換等核心問題,常見的流水線管理工具有?Apache Nifi、Stream Set?等。
數(shù)據(jù)融合查詢管理組件。即用統(tǒng)一的方式訪問分析多源異構(gòu)數(shù)據(jù)。目前數(shù)據(jù)融合主要有聯(lián)邦數(shù)據(jù)庫(Federate Database)、多模型數(shù)據(jù)庫(Multi-model Database)、多存儲數(shù)據(jù)庫(Polystore Database)、數(shù)據(jù)集成(Data Integration)4?種方式。聯(lián)邦數(shù)據(jù)庫將多個自治的異構(gòu)或同構(gòu)數(shù)據(jù)庫中的數(shù)據(jù)透明地映射到一個全局視圖中,具有自治、異源或異構(gòu)、分布式的明顯特征,比如在?SQL Server?2000?和?Mysql?5.0?中的?Federate?功能。多模型數(shù)據(jù)庫是指一個數(shù)據(jù)庫后端存儲多種類型的數(shù)據(jù),如?OrientDB、ArangoDB?等。多存儲數(shù)據(jù)庫架構(gòu)沒有統(tǒng)一全局視圖,而是由局部視圖和中間視圖構(gòu)成,通過統(tǒng)一的查詢語言進行查詢,典型的?Polystore?架構(gòu)有?BigDAWG、Myria?等。根據(jù)數(shù)據(jù)轉(zhuǎn)換的方式,數(shù)據(jù)集成可以分為在線集成和離線集成兩種方式。離線集成將不同數(shù)據(jù)源中數(shù)據(jù)通過?ETL?轉(zhuǎn)換,存儲在全局視圖數(shù)據(jù)源中進行統(tǒng)一管理分析,如數(shù)據(jù)倉庫、數(shù)據(jù)湖泊、DataHub?等方式。在線集成通過解析查詢語句將局部視圖中的數(shù)據(jù)在線轉(zhuǎn)換為全局視圖,如?Sparksql、Impala、Presto?等。
數(shù)據(jù)共享管理組件。該組件的根本任務(wù)是疏通數(shù)據(jù)擁有者到用戶之間的鏈路,促進數(shù)據(jù)資源在擁有者和用戶之間的流通、傳播與重用。目前科學(xué)數(shù)據(jù)共享機制模式的研究主要集中在數(shù)據(jù)匯交機制、數(shù)據(jù)出版機制、數(shù)據(jù)聯(lián)盟機制和服務(wù)激勵機制(積分機制、在線計算服務(wù)模式)4?個方面,如王晴、李成贊等從政策法規(guī)、技術(shù)保障、評價激勵等方面對數(shù)據(jù)共享機制進行了深入分析和論證。數(shù)據(jù)共享的隱私保護技術(shù)中最具代表性的是區(qū)塊鏈技術(shù),如丁偉等、翁健等提出了基于區(qū)塊鏈的數(shù)據(jù)共享方法,通過公私鑰等非對稱加密算法將數(shù)據(jù)存儲在區(qū)塊鏈上,從而更大程度上保護了用戶數(shù)據(jù)的隱私,并在醫(yī)療、基因等領(lǐng)域進行了驗證。
科學(xué)大數(shù)據(jù)管理系統(tǒng)項目進展
依托國家重點研發(fā)計劃項目“科學(xué)大數(shù)據(jù)管理系統(tǒng)”和中國科學(xué)院“十三五”信息化建設(shè)“科學(xué)大數(shù)據(jù)工程”項目,我們與計算機領(lǐng)域及天文學(xué)、高能物理、微生物學(xué)等學(xué)科領(lǐng)域的?20?多家科研單位進行合作,對科學(xué)大數(shù)據(jù)管理進行了探索,研發(fā)了一套科學(xué)大數(shù)據(jù)管理系統(tǒng)?BigSDMS(Big Scientific Data Management System)。該項目的核心內(nèi)容主要包括?3?個部分:科學(xué)大數(shù)據(jù)管理引擎、科學(xué)大數(shù)據(jù)系統(tǒng)集成和科學(xué)大數(shù)據(jù)應(yīng)用示范。項目研發(fā)的系統(tǒng)總體架構(gòu)如圖?3?所示。
科學(xué)大數(shù)據(jù)管理引擎
BigSDMS?包括?3?類科學(xué)大數(shù)據(jù)管理引擎:大規(guī)模圖數(shù)據(jù)管理、大規(guī)模半結(jié)構(gòu)數(shù)據(jù)管理和大規(guī)模關(guān)系型數(shù)據(jù)管理。其中,大規(guī)模圖數(shù)據(jù)庫?Gstore?支持?100?億條三元組圖數(shù)據(jù)管理和秒級查詢響應(yīng)時間。大規(guī)模半結(jié)構(gòu)化數(shù)據(jù)庫?Eventdb?支持萬億級高能物理實驗事例、EB?量級數(shù)據(jù)管理能力。大規(guī)模關(guān)系型數(shù)據(jù)庫?AstroSever?支持千億行天文星表數(shù)據(jù)的管理,大、中、小規(guī)模數(shù)據(jù)典型操作的查詢優(yōu)化及滿足數(shù)據(jù)處理精度與實時性的要求。這?3?類數(shù)據(jù)庫基本滿足了目前常見科學(xué)實驗中大規(guī)模數(shù)據(jù)的存儲、訪問等管理需求。
科學(xué)大數(shù)據(jù)系統(tǒng)集成
BigSDMS?集成包含彈性部署(EMR)、流水線(Piflow)、融合查詢(Simba)和數(shù)據(jù)共享(Pishare)4?個部分。其中,EMR?的彈性伸縮方案綜合使用漸進式伸縮和定量式伸縮的優(yōu)點:當負載模型可信度低于閾值時,采用漸進式方法進行伸縮,并根據(jù)擴容后的資源競爭修正負載模型;若負載模型可信度達到閾值后則采用定量式伸縮方法。Piflow?基于?Petri?網(wǎng),處理單元(processor)在未知狀態(tài)(unknown)、活躍狀態(tài)(active)、休眠狀態(tài)(hibernated)3?種狀態(tài)之間進行轉(zhuǎn)換,完成流程的執(zhí)行與監(jiān)控。Simba?基于?Sparksql,在?Zeppelin?可視化界面中通過?SQL?查詢進行多種數(shù)據(jù)源的融合查詢分析。Pishare?基于開源區(qū)塊鏈項目?Hyperledger,在區(qū)塊鏈上?Pishare?會對數(shù)據(jù)進行加密存儲和產(chǎn)權(quán)認證,并通過積分機制(科學(xué)幣)對數(shù)據(jù)提供者進行獎勵以及數(shù)據(jù)市場的交易。
科學(xué)大數(shù)據(jù)應(yīng)用示范
目前,基于?BigSDMS,我們在天文學(xué)、高能物理、微生物學(xué)領(lǐng)域構(gòu)建了?3?個應(yīng)用示范:①天文學(xué)領(lǐng)域使用了?100?億行星表數(shù)據(jù),定義了?5?個光變曲線處理流程,實現(xiàn)?680?萬行星表數(shù)據(jù)插入時間少于?3?s,“異常發(fā)現(xiàn)”時間小于?1?s(圖?4a);②高能物理領(lǐng)域使用了?BESIII?產(chǎn)生的?942.9?億條事例數(shù)據(jù),相對于業(yè)界常用的?Boss?查詢平均查詢效率提高?10?倍以上(圖?4b);③微生物學(xué)領(lǐng)域整合了?200?種微生物種菌信息,構(gòu)建了?5?億條規(guī)模的?RDF?知識圖譜數(shù)據(jù)(圖?4c)。
隨著人類對客觀世界的深入認知,越來越多的社會和自然現(xiàn)象能夠通過觀測設(shè)備進行量化,這將導(dǎo)致科學(xué)數(shù)據(jù)的體量和類型持續(xù)增加。在數(shù)據(jù)驅(qū)動的科學(xué)發(fā)現(xiàn)模式下,應(yīng)對科學(xué)大數(shù)據(jù)管理的?SPUS?挑戰(zhàn)已成為眼下刻不容緩的任務(wù)。由中國科學(xué)院計算機網(wǎng)絡(luò)信息中心牽頭的國家重點研發(fā)計劃“科學(xué)大數(shù)據(jù)管理系統(tǒng)”項目對這些問題進行了深入探索,研發(fā)了一套科學(xué)大數(shù)據(jù)管理系統(tǒng)?BigSDMS。未來我們還會在彈性部署、流水線、數(shù)據(jù)融合和數(shù)據(jù)發(fā)布共享?4?個方面進行更深入的探索,如競爭度的量化與預(yù)測、流水線中間數(shù)據(jù)模型設(shè)計、多查詢引擎的?Polystore?方式集成、數(shù)據(jù)共享機制優(yōu)化等。隨著科學(xué)大數(shù)據(jù)管理技術(shù)和系統(tǒng)研究不斷深入,科學(xué)大數(shù)據(jù)對科學(xué)發(fā)現(xiàn)的貢獻將會越來越大!