Spark火遍IT業(yè)界已是不可置疑的事實。作為Apache一大開源項目,這款大數(shù)據(jù)處理引擎文能連接車輛與物聯(lián)網(wǎng),武能識別隱秘的洗錢行為。
Spark的魅力
Apache Spark脫胎于加州伯克利大學(xué)AMPLab實驗室團隊。自誕生伊始,Spark就與MapReduce進行比較,MapReduce是Hadoop最初的數(shù)據(jù)處理引擎,因?qū)Υ髷?shù)據(jù)集的分布式處理能力而廣受關(guān)注,但在效率方面飽受詬病。MapReduce以批處理方式進行計算,無法很好地應(yīng)對流處理模式(比如物聯(lián)網(wǎng)項目)。而且,MapReduce沒有內(nèi)存計算的選項,每次計算后都要將結(jié)果寫入外部存儲,這使得迭代式的任務(wù)相當(dāng)耗時。
因此,Apache Spark近些年發(fā)展迅猛,在全球23個國家50個城市擁有66個小組,會員人數(shù)超過21000。作為Spark的創(chuàng)建方,AMPLab開發(fā)了基于內(nèi)存計算的Spark、Tachyon、GraphX、SparkR等大數(shù)據(jù)處理框架和技術(shù),憑借超強的數(shù)據(jù)處理速度、對復(fù)雜數(shù)據(jù)的實時分析能力及高易用性,受到業(yè)界追捧。
在中國,大數(shù)據(jù)方興未艾。Wikibon的調(diào)研數(shù)據(jù)顯示,大數(shù)據(jù)正逐漸成為全球IT支出的全新增長點。中國也得益于人口和行業(yè)的規(guī)模,以及正在迅速拓展的數(shù)字經(jīng)濟,正在成為大數(shù)據(jù)技術(shù)應(yīng)用的高地。
大數(shù)據(jù)金牌訓(xùn)練營AMPCamp移師中國
為了幫助研發(fā)和應(yīng)用大數(shù)據(jù)技術(shù)的中國開發(fā)者與企業(yè)技術(shù)人員深入了解這些開源大數(shù)據(jù)技術(shù)的精髓與應(yīng)用優(yōu)勢,讓他們能夠更好地參與到相關(guān)技術(shù)創(chuàng)新與實踐的進程中來,在美國連續(xù)舉辦了五屆的大數(shù)據(jù)金牌訓(xùn)練營AMPCamp移師中國。
在上海舉辦的首屆AMPCamp@China訓(xùn)練營的成功離不開英特爾的支持。實際上,英特爾除了擁有業(yè)界無可匹敵的硬件,在軟件領(lǐng)域的表現(xiàn)也可圈可點。2012年,英特爾就和美國加州伯克利大學(xué)進行了很緊密的合作,圍繞Apache Spark軟件開展了技術(shù)開發(fā)、代碼優(yōu)化、應(yīng)用拓展等多個維度的緊密合作,并且在Spark社區(qū)貢獻代碼量排名全球第三。
英特爾大數(shù)據(jù)首席架構(gòu)師戴金權(quán)表示,英特爾大數(shù)據(jù)團隊主要投入到大數(shù)據(jù)開源社區(qū)的核心項目上。從Spark、Hadoop、Hbase到Hive等,今天英特爾全球有超過22位員工作為項目核心committer,領(lǐng)導(dǎo)社區(qū)進行開源項目開發(fā)。
戴金權(quán)補充,英特爾一直致力于幫助合作伙伴和用戶在開放架構(gòu)的大數(shù)據(jù)平臺上開發(fā)多樣化、差異化的應(yīng)用。向各個行業(yè)的用戶提供大數(shù)據(jù)實踐層面的技術(shù)支持,積極參與到大數(shù)據(jù)領(lǐng)域的人才培養(yǎng)事業(yè)中。
他說:“我們英特爾將進一步拓展和深化與開源社區(qū)、產(chǎn)業(yè)界、學(xué)術(shù)界的合作,所有基于開放架構(gòu)的主流大數(shù)據(jù)軟件技術(shù),特別是開源技術(shù),都是我們提供平臺優(yōu)化和技術(shù)支持的目標。”
與國內(nèi)學(xué)界在大數(shù)據(jù)方面的合作
Intel除了公司內(nèi)開展諸多大數(shù)據(jù)技術(shù)與系統(tǒng)研發(fā)外,還與國內(nèi)學(xué)界開展了大數(shù)據(jù)技術(shù)合作研究,其中合作最早的學(xué)校之一是南京大學(xué)PASA大數(shù)據(jù)實驗室。
作為國內(nèi)最早開展大數(shù)據(jù)技術(shù)研究和教學(xué)的課題組之一,南京大學(xué)PASA大數(shù)據(jù)實驗室近六年來在大數(shù)據(jù)技術(shù)領(lǐng)域開展了一系列系統(tǒng)深入的研究開發(fā)工作,積累了系統(tǒng)的研究和技術(shù)基礎(chǔ)。南京大學(xué)PASA大數(shù)據(jù)實驗室學(xué)術(shù)帶頭人黃宜華教授告訴TechTarget中國:“我們的重點是圍繞大數(shù)據(jù)處理技術(shù)與系統(tǒng)工具平臺研究,主要覆蓋分布式存儲、并行化計算與并行化分析算法三個層面。”
從2010年開始與英特爾合作,南京大學(xué)PASA大數(shù)據(jù)實驗室進行了Hadoop性能優(yōu)化、基于Intel Xeon Phi眾核處理器的并行化算法研究、大規(guī)模中文文本語義分析技術(shù)研究、Spark和Tachyon性能優(yōu)化研究、以及分布式文件系統(tǒng)性能評測技術(shù)與工具研究工作。
2014年,南大大學(xué)PASA大數(shù)據(jù)實驗室成功申請獲得由英特爾中國研究院和CSDN聯(lián)合發(fā)布的基于Spark的分布式矩陣運算庫研究項目,研究實現(xiàn)了全球第一個基于Spark的分布式矩陣運算庫,項目成果已經(jīng)開源到社區(qū)。
黃宜華教授表示,Intel不僅是一個在處理器和硬件方面世界領(lǐng)先的企業(yè),在軟件方面也是一個技術(shù)力量雄厚的企業(yè)。尤其是,基于在硬件和體系結(jié)構(gòu)層面的技術(shù)優(yōu)勢,英特爾在大數(shù)據(jù)系統(tǒng)的性能優(yōu)化方面具有獨特的技術(shù)優(yōu)勢。
除了合作研究工作以外Intel還資助南京大學(xué)開展了大數(shù)據(jù)技術(shù)教學(xué)和課程建設(shè)方面的工作,攜手大數(shù)據(jù)技術(shù)教學(xué)與人才培養(yǎng),以進一步推動大數(shù)據(jù)技術(shù)及其應(yīng)用的發(fā)展。
Spark還能如何提升?
如今,眾多IT界大佬都將Spark加入到了自己的Hadoop發(fā)行版里,期望其能成為通用的大數(shù)據(jù)技術(shù)。但也有專家認為Spark還有需要完善的地方,例如內(nèi)存計算穩(wěn)定性問題。
戴金權(quán)表示,英特爾利用開放架構(gòu)的潛能,使大數(shù)據(jù)技術(shù)能夠真正轉(zhuǎn)化成為各行各業(yè)解析數(shù)據(jù)價值。也期望用戶對大數(shù)據(jù)技術(shù)的更多采納和應(yīng)用能夠反過來驅(qū)動大數(shù)據(jù)技術(shù)創(chuàng)新生態(tài)系統(tǒng)的加速發(fā)展。