亚洲av日韩av无码中出,8050午夜二级一级全黄

加速企業(yè)級大數(shù)據(jù)方案落地 IBM聚力發(fā)揮Spark優(yōu)勢

責(zé)任編輯：editor006

作者：曾勇華

2016-10-12 17:33:31

摘自：51cto

大數(shù)據(jù)技術(shù)在近些年得到了長足發(fā)展，大數(shù)據(jù)軟件框架Hadoop的快速興起引領(lǐng)了大數(shù)據(jù)的行業(yè)潮流。未來，IBM將繼續(xù)結(jié)合Spark的大數(shù)據(jù)能力及多方參與的互動機(jī)制，為大數(shù)據(jù)在企業(yè)的應(yīng)用搭建橋梁。

大數(shù)據(jù)技術(shù)在近些年得到了長足發(fā)展，大數(shù)據(jù)軟件框架Hadoop的快速興起引領(lǐng)了大數(shù)據(jù)的行業(yè)潮流。作為一種類Hadoop的新計算框架，Spark自2014年從Apache中孵化出來后，在短短兩年的時間中為大數(shù)據(jù)技術(shù)賦予了新的活力，這一基于內(nèi)存的分布式計算框架已經(jīng)在眾多行業(yè)得到應(yīng)用。

隨著2.0版本的新近發(fā)布，Spark向大數(shù)據(jù)市場展現(xiàn)了其性能提升空間，其在Streaming概念上的進(jìn)一步強(qiáng)化為實時流處理及查詢加載了更強(qiáng)的保障。在大數(shù)據(jù)領(lǐng)域，Spark逐漸成熟，正在走向更多行業(yè)、更多企業(yè)。

面對這一逐漸強(qiáng)大的數(shù)據(jù)計算架構(gòu)，IBM著力發(fā)展Spark項目，將其定位于數(shù)據(jù)分析的操作系統(tǒng)，并基于Spark構(gòu)建IBM數(shù)據(jù)分析產(chǎn)品的整個體系。IBM對Spark的“押寶”，可以從社區(qū)貢獻(xiàn)、產(chǎn)品搭建、人才教育、創(chuàng)新應(yīng)用四個維度予以解讀。

貢獻(xiàn)社區(qū)、搭建產(chǎn)品 IBM與Spark互利共進(jìn)

2015年，IBM成立了Spark技術(shù)中心(STC，Spark Technology Center)，專注于Spark解決方案的提升及技術(shù)交流，針對Spark內(nèi)核、Spark Streaming、SparkML和SparkR打造集合專家、提交者和貢獻(xiàn)者的社區(qū)。在短短的1年時間里，IBM通過這一技術(shù)中心為Spark社區(qū)貢獻(xiàn)約800個JIRA，并提供了Spark認(rèn)證，進(jìn)一步鼓勵基于Spark的開發(fā)。目前，IBM在Spark社區(qū)致力于推進(jìn)Spark SQL、SparkML，Benchmark及 Swift對象存儲。此外，IBM將其機(jī)器學(xué)習(xí)框架SystemML貢獻(xiàn)于Apache社區(qū)，使其作為 Apache的孵化器項目，為機(jī)器學(xué)習(xí)用戶快速優(yōu)化算法和模型。

開源領(lǐng)域新興成果層出不窮，然而從技術(shù)代碼到企業(yè)級應(yīng)用、從開發(fā)成果到企業(yè)級產(chǎn)品的歷程，仍然存在著一段距離。除貢獻(xiàn)于Spark社區(qū)，IBM同時基于Spark構(gòu)建自身的產(chǎn)品及服務(wù)，輔助企業(yè)將開源成果轉(zhuǎn)化為其能夠良好應(yīng)用的IT產(chǎn)品和服務(wù)，提升企業(yè)對開源的應(yīng)用體驗。

基于Spark組件，IBM提供了多方面的大數(shù)據(jù)解決方案，包括BigInsights、數(shù)據(jù)科學(xué)體驗(Data Science Experience)、dashDB數(shù)據(jù)倉庫及Spark即服務(wù)(Spark as a Service)等。Spark即服務(wù)將Spark產(chǎn)品以云服務(wù)的方式直接交付，并在此過程中賦予其更高的安全性、數(shù)據(jù)存儲能力及多租戶特性。在IBM自身的解決方案上，IBM基于Spark提供面向分析的數(shù)據(jù)引擎，將傳統(tǒng)的單機(jī)核心引擎通過Spark改造成分布式，并在Watson分析等領(lǐng)域以更高的性能、更分布的方式對數(shù)據(jù)進(jìn)行分析和處理。在針對Spark的集成方面，IBM將數(shù)據(jù)直接復(fù)制到Spark上開展分析，提供了SPSS建模模塊和分析服務(wù)器、Cloudant NoSQL數(shù)據(jù)庫、InfoSphere Streams流分析等解決方案。

除在軟件和服務(wù)層面實現(xiàn)對Spark的支持，IBM在硬件架構(gòu)層面也利用Power Systems提升Spark的性能?；趦?nèi)存的Spark采用數(shù)據(jù)集中式的分析，能夠充分利用Power芯片的優(yōu)勢。在實際測試與應(yīng)用案例中，運(yùn)行在Power上的Spark性能達(dá)到了x86方案的兩倍。未來，IBM將以更多Spark相關(guān)的產(chǎn)品，服務(wù)更多企業(yè)客戶的大數(shù)據(jù)分析需求。

培養(yǎng)人才、創(chuàng)新應(yīng)用 IBM推進(jìn)大數(shù)據(jù)的社會利用

大數(shù)據(jù)領(lǐng)域，人才是最為重要的資產(chǎn)。面向市場對數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師、數(shù)據(jù)工程師、數(shù)據(jù)架構(gòu)師等不同角色的大數(shù)據(jù)人才的需求，IBM成立了數(shù)據(jù)科學(xué)學(xué)院，從大數(shù)據(jù)專業(yè)技能、社區(qū)互動、聯(lián)合項目和大數(shù)據(jù)創(chuàng)業(yè)孵化器幾個方面推進(jìn)大數(shù)據(jù)人才的培養(yǎng)、成長。這一公益組織在IBM發(fā)起的“大數(shù)據(jù)大學(xué)”平臺上提供免費(fèi)的課程，通過開設(shè)Hadoop、Spark、R、機(jī)器學(xué)習(xí)等課程，提升大數(shù)據(jù)人才專業(yè)技能。大數(shù)據(jù)大學(xué)針對不同的學(xué)習(xí)目標(biāo)配備了專門的學(xué)習(xí)路徑，在全球網(wǎng)站和中文網(wǎng)站上提供數(shù)據(jù)工程、數(shù)據(jù)分析學(xué)習(xí)的免費(fèi)課程。在這一平臺上，學(xué)習(xí)者、數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師不僅可以增進(jìn)自身的理論知識，還可以通過利用R語言、Spark集群，開展數(shù)據(jù)清洗、分析、可視化操作等實踐，以實踐檢驗真理。

此外，在大數(shù)據(jù)社區(qū)中，IBM發(fā)起了多樣的交互活動，包括大數(shù)據(jù)峰會、Spark大賽等。以Spark大賽為例，IBM目前正在開展的全球Spark大賽得到了中國區(qū)的近20個參賽方案，激發(fā)了本地的創(chuàng)新火花。通過免費(fèi)的方式和合作伙伴、孵化器企業(yè)合作，為提供技術(shù)支持，從而使得Spark等大數(shù)據(jù)解決方案在各行各業(yè)落地，開展服務(wù)。

最近，IBM正在基于Spark開展創(chuàng)新項目，充分發(fā)揮Spark的作用。在智能交通領(lǐng)域，IBM通過采集物聯(lián)網(wǎng)數(shù)據(jù)，并在Spark Streaming上對大眾出行數(shù)據(jù)進(jìn)行處理過濾、去噪、數(shù)據(jù)標(biāo)準(zhǔn)化等，建立了基于Spark的數(shù)據(jù)模型，實時分析人口聚集、流動情況，以預(yù)測交通擁堵情況，為交通管理部門和運(yùn)維部門采取管制措施提供參考，并進(jìn)一步提高公眾的出行體驗。此外，IBM對Spark的創(chuàng)新應(yīng)用還為天氣預(yù)測提供了提升的解決方案。未來，IBM將繼續(xù)結(jié)合Spark的大數(shù)據(jù)能力及多方參與的互動機(jī)制，為大數(shù)據(jù)在企業(yè)的應(yīng)用搭建橋梁。

IBM 數(shù)據(jù)清洗