支撐電信、金融、醫(yī)療、安全、電力等關(guān)鍵行業(yè)大數(shù)據(jù)應(yīng)用的基礎(chǔ)軟件平臺將呈一體化形態(tài),它以數(shù)據(jù)為中心,將操作系統(tǒng)、分布式存儲、數(shù)據(jù)庫等產(chǎn)品融合起來,對結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化等全數(shù)據(jù)進(jìn)行高效存儲與管理,并對應(yīng)用提供統(tǒng)一的數(shù)據(jù)服務(wù)支撐接口。大數(shù)據(jù)環(huán)境下的基礎(chǔ)軟件平臺很像一個(gè)“泛OS”,將傳統(tǒng)操作系統(tǒng)、存儲、數(shù)據(jù)庫等等產(chǎn)品和組件有機(jī)融合,做到存儲資源、計(jì)算資源等有效管理和調(diào)度,同時(shí)為上層數(shù)據(jù)應(yīng)用提供統(tǒng)一、易用接口,實(shí)現(xiàn)數(shù)據(jù)采集、存儲、計(jì)算、應(yīng)用等全周期的高效易用、安全可靠和易管理。
圖 1 行業(yè)大數(shù)據(jù)處理基礎(chǔ)軟件平臺“一體化”框架圖
國際上一體化融合的大數(shù)據(jù)處理平臺已經(jīng)成為主流趨勢。國際IT巨頭們在積極發(fā)展以平臺為核心、面向新型應(yīng)用模式的一體化行業(yè)解決方案和生態(tài)系統(tǒng)。2013年,EMC公司發(fā)布了自身的Apache Hadoop發(fā)行版—Pivotal HD,它將大規(guī)模并行數(shù)據(jù)庫技術(shù)與Apache Hadoop框架集成,同時(shí)發(fā)布了一個(gè)名為HAWQ的技術(shù),將Greenplum分析型數(shù)據(jù)庫與Hadoop分布式架構(gòu)進(jìn)行緊密地融合,實(shí)現(xiàn)了HDFS上SQL并行數(shù)據(jù)庫處理,提高了性能并使Hadoop平臺與SQL開發(fā)者實(shí)現(xiàn)了接軌?;萜談t發(fā)布了大數(shù)據(jù)解決方案HAVEn分析平臺,該平臺是惠普大數(shù)據(jù)產(chǎn)品的組合,它整合了Hadoop/HDFS、HP Autonomy語義處理引擎、HP Vertica列存數(shù)據(jù)庫、EntERPrise Security安全技術(shù)等形成大數(shù)據(jù)處理方案。
圖 2 Pivotal HD架構(gòu)圖
圖 3 HAVEn Platform結(jié)構(gòu)圖
圍繞行業(yè)大數(shù)據(jù)應(yīng)用構(gòu)建大數(shù)據(jù)處理基礎(chǔ)軟件平臺的關(guān)鍵問題是如何解決結(jié)構(gòu)化和非/半結(jié)構(gòu)化不同類型的數(shù)據(jù)融合,以及實(shí)現(xiàn)不同類型數(shù)據(jù)處理模式的整合。單一的MPP數(shù)據(jù)庫或Hadoop產(chǎn)品一般很難滿足行業(yè)用戶對結(jié)構(gòu)化和非/半結(jié)構(gòu)化數(shù)據(jù)融合的業(yè)務(wù)需求,這兩種方式的界限正在實(shí)際應(yīng)用部署被打破,市場上正逐步形成以全數(shù)據(jù)處理為核心,垂直整合操作系統(tǒng)、MPP數(shù)據(jù)庫、Hadoop、統(tǒng)一數(shù)據(jù)服務(wù)的基礎(chǔ)軟件平臺產(chǎn)品。
在國內(nèi),業(yè)界的主流思路是:用基于MPP架構(gòu)的新型數(shù)據(jù)庫集群(如EMC GreenPlum、南大通用GBase 8a、HP Vertica等)管理結(jié)構(gòu)化大數(shù)據(jù),側(cè)重于行業(yè)大數(shù)據(jù)分析型應(yīng)用場景;用基于Hadoop的技術(shù)擴(kuò)展和封裝(如HBase數(shù)據(jù)庫)管理非/半結(jié)構(gòu)化大數(shù)據(jù),側(cè)重于互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用場景。MPP集群與Hadoop產(chǎn)品混搭部署、相互融合,共同支撐大數(shù)據(jù)應(yīng)用。
MPP與Hadoop的應(yīng)用融合是大數(shù)據(jù)處理基礎(chǔ)軟件平臺需要解決的一個(gè)核心技術(shù)問題。為了讓平臺能夠更好地支撐行業(yè)大數(shù)據(jù)應(yīng)用,不改變用戶習(xí)慣的SQL這種更易于理解的、交互性更好的訪問接口,架構(gòu)需要以MPP數(shù)據(jù)庫及計(jì)算框架為核心,將MPP運(yùn)算調(diào)度引擎完全融入非關(guān)系型運(yùn)算調(diào)度框架,實(shí)現(xiàn)可以同時(shí)調(diào)度關(guān)系運(yùn)算和非關(guān)系運(yùn)算的調(diào)度引擎,構(gòu)建統(tǒng)一的結(jié)構(gòu)化信息提取和數(shù)據(jù)類型轉(zhuǎn)換框架,將非/半結(jié)構(gòu)化數(shù)據(jù)映射為關(guān)系模型,實(shí)現(xiàn)面向關(guān)系模型的全數(shù)據(jù)統(tǒng)一視圖,從而平滑的實(shí)現(xiàn)MPP數(shù)據(jù)庫和Hadoop的統(tǒng)一調(diào)度和處理,為新型的基礎(chǔ)軟件平臺和上層應(yīng)用提供數(shù)據(jù)服務(wù)。
當(dāng)前,國家的大數(shù)據(jù)戰(zhàn)略、信息安全戰(zhàn)略,以及大數(shù)據(jù)行業(yè)應(yīng)用引發(fā)了對國產(chǎn)大數(shù)據(jù)處理基礎(chǔ)軟件平臺的強(qiáng)勁需求。國產(chǎn)基礎(chǔ)軟件廠商應(yīng)協(xié)同作戰(zhàn),抓緊市場與技術(shù)的雙重時(shí)機(jī),發(fā)展國產(chǎn)化大數(shù)據(jù)處理基礎(chǔ)軟件平臺,并在國計(jì)民生的大數(shù)據(jù)應(yīng)用系統(tǒng)中成為重要支撐。與此同時(shí),在關(guān)鍵發(fā)展時(shí)間窗,國家應(yīng)及時(shí)給予大力支持和幫助,避免大數(shù)據(jù)領(lǐng)域基礎(chǔ)軟件平臺幾年后再次走上“國產(chǎn)化”替代的老路。