大數(shù)據(jù)技術(shù)在近些年得到了長足發(fā)展,大數(shù)據(jù)軟件框架Hadoop的快速興起引領(lǐng)了大數(shù)據(jù)的行業(yè)潮流。作為一種類Hadoop的新計算框架,Spark自2014年從Apache中孵化出來后,在短短兩年的時間中為大數(shù)據(jù)技術(shù)賦予了新的活力,這一基于內(nèi)存的分布式計算框架已經(jīng)在眾多行業(yè)得到應(yīng)用。
隨著2.0版本的新近發(fā)布,Spark向大數(shù)據(jù)市場展現(xiàn)了其性能提升空間,其在Streaming概念上的進(jìn)一步強(qiáng)化為實時流處理及查詢加載了更強(qiáng)的保障。在大數(shù)據(jù)領(lǐng)域,Spark逐漸成熟,正在走向更多行業(yè)、更多企業(yè)。
面對這一逐漸強(qiáng)大的數(shù)據(jù)計算架構(gòu),IBM著力發(fā)展Spark項目,將其定位于數(shù)據(jù)分析的操作系統(tǒng),并基于Spark構(gòu)建IBM數(shù)據(jù)分析產(chǎn)品的整個體系。IBM對Spark的“押寶”,可以從社區(qū)貢獻(xiàn)、產(chǎn)品搭建、人才教育、創(chuàng)新應(yīng)用四個維度予以解讀。
貢獻(xiàn)社區(qū)、搭建產(chǎn)品 IBM與Spark互利共進(jìn)
2015年,IBM成立了Spark技術(shù)中心(STC,Spark Technology Center),專注于Spark解決方案的提升及技術(shù)交流,針對Spark內(nèi)核、Spark Streaming、SparkML和SparkR打造集合專家、提交者和貢獻(xiàn)者的社區(qū)。在短短的1年時間里,IBM通過這一技術(shù)中心為Spark社區(qū)貢獻(xiàn)約800個JIRA,并提供了Spark認(rèn)證,進(jìn)一步鼓勵基于Spark的開發(fā)。目前,IBM在Spark社區(qū)致力于推進(jìn)Spark SQL、SparkML,Benchmark及 Swift對象存儲。此外,IBM將其機(jī)器學(xué)習(xí)框架SystemML貢獻(xiàn)于Apache社區(qū),使其作為 Apache的孵化器項目,為機(jī)器學(xué)習(xí)用戶快速優(yōu)化算法和模型。
開源領(lǐng)域新興成果層出不窮,然而從技術(shù)代碼到企業(yè)級應(yīng)用、從開發(fā)成果到企業(yè)級產(chǎn)品的歷程,仍然存在著一段距離。除貢獻(xiàn)于Spark社區(qū),IBM同時基于Spark構(gòu)建自身的產(chǎn)品及服務(wù),輔助企業(yè)將開源成果轉(zhuǎn)化為其能夠良好應(yīng)用的IT產(chǎn)品和服務(wù),提升企業(yè)對開源的應(yīng)用體驗。
基于Spark組件,IBM提供了多方面的大數(shù)據(jù)解決方案,包括BigInsights、數(shù)據(jù)科學(xué)體驗(Data Science Experience)、dashDB數(shù)據(jù)倉庫及Spark即服務(wù)(Spark as a Service)等。Spark即服務(wù)將Spark產(chǎn)品以云服務(wù)的方式直接交付,并在此過程中賦予其更高的安全性、數(shù)據(jù)存儲能力及多租戶特性。在IBM自身的解決方案上,IBM基于Spark提供面向分析的數(shù)據(jù)引擎,將傳統(tǒng)的單機(jī)核心引擎通過Spark改造成分布式,并在Watson分析等領(lǐng)域以更高的性能、更分布的方式對數(shù)據(jù)進(jìn)行分析和處理。在針對Spark的集成方面,IBM將數(shù)據(jù)直接復(fù)制到Spark上開展分析,提供了SPSS建模模塊和分析服務(wù)器、Cloudant NoSQL數(shù)據(jù)庫、InfoSphere Streams流分析等解決方案。
除在軟件和服務(wù)層面實現(xiàn)對Spark的支持,IBM在硬件架構(gòu)層面也利用Power Systems提升Spark的性能?;趦?nèi)存的Spark采用數(shù)據(jù)集中式的分析,能夠充分利用Power芯片的優(yōu)勢。在實際測試與應(yīng)用案例中,運(yùn)行在Power上的Spark性能達(dá)到了x86方案的兩倍。未來,IBM將以更多Spark相關(guān)的產(chǎn)品,服務(wù)更多企業(yè)客戶的大數(shù)據(jù)分析需求。
培養(yǎng)人才、創(chuàng)新應(yīng)用 IBM推進(jìn)大數(shù)據(jù)的社會利用
大數(shù)據(jù)領(lǐng)域,人才是最為重要的資產(chǎn)。面向市場對數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師、數(shù)據(jù)工程師、數(shù)據(jù)架構(gòu)師等不同角色的大數(shù)據(jù)人才的需求,IBM成立了數(shù)據(jù)科學(xué)學(xué)院,從大數(shù)據(jù)專業(yè)技能、社區(qū)互動、聯(lián)合項目和大數(shù)據(jù)創(chuàng)業(yè)孵化器幾個方面推進(jìn)大數(shù)據(jù)人才的培養(yǎng)、成長。這一公益組織在IBM發(fā)起的“大數(shù)據(jù)大學(xué)”平臺上提供免費(fèi)的課程,通過開設(shè)Hadoop、Spark、R、機(jī)器學(xué)習(xí)等課程,提升大數(shù)據(jù)人才專業(yè)技能。大數(shù)據(jù)大學(xué)針對不同的學(xué)習(xí)目標(biāo)配備了專門的學(xué)習(xí)路徑,在全球網(wǎng)站和中文網(wǎng)站上提供數(shù)據(jù)工程、數(shù)據(jù)分析學(xué)習(xí)的免費(fèi)課程。在這一平臺上,學(xué)習(xí)者、數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師不僅可以增進(jìn)自身的理論知識,還可以通過利用R語言、Spark集群,開展數(shù)據(jù)清洗、分析、可視化操作等實踐,以實踐檢驗真理。
此外,在大數(shù)據(jù)社區(qū)中,IBM發(fā)起了多樣的交互活動,包括大數(shù)據(jù)峰會、Spark大賽等。以Spark大賽為例,IBM目前正在開展的全球Spark大賽得到了中國區(qū)的近20個參賽方案,激發(fā)了本地的創(chuàng)新火花。通過免費(fèi)的方式和合作伙伴、孵化器企業(yè)合作,為提供技術(shù)支持,從而使得Spark等大數(shù)據(jù)解決方案在各行各業(yè)落地,開展服務(wù)。
最近,IBM正在基于Spark開展創(chuàng)新項目,充分發(fā)揮Spark的作用。在智能交通領(lǐng)域,IBM通過采集物聯(lián)網(wǎng)數(shù)據(jù),并在Spark Streaming上對大眾出行數(shù)據(jù)進(jìn)行處理過濾、去噪、數(shù)據(jù)標(biāo)準(zhǔn)化等,建立了基于Spark的數(shù)據(jù)模型,實時分析人口聚集、流動情況,以預(yù)測交通擁堵情況,為交通管理部門和運(yùn)維部門采取管制措施提供參考,并進(jìn)一步提高公眾的出行體驗。此外,IBM對Spark的創(chuàng)新應(yīng)用還為天氣預(yù)測提供了提升的解決方案。未來,IBM將繼續(xù)結(jié)合Spark的大數(shù)據(jù)能力及多方參與的互動機(jī)制,為大數(shù)據(jù)在企業(yè)的應(yīng)用搭建橋梁。