2020av手机在线,亚洲视频国产精品日韩欧美

Spark太火大數(shù)據(jù)訓(xùn)練營AMPCamp都來中國了

責(zé)任編輯：editor006

作者：唐瓊瑤

2015-06-09 14:22:05

摘自：TechTarget中國

2014年，南大大學(xué)PASA大數(shù)據(jù)實驗室成功申請獲得由英特爾中國研究院和CSDN聯(lián)合發(fā)布的基于Spark的分布式矩陣運算庫研究項目，研究實現(xiàn)了全球第一個基于Spark的分布式矩陣運算庫，項目成果已經(jīng)開源到社區(qū)。

Spark火遍IT業(yè)界已是不可置疑的事實。作為Apache一大開源項目，這款大數(shù)據(jù)處理引擎文能連接車輛與物聯(lián)網(wǎng)，武能識別隱秘的洗錢行為。

Spark的魅力

Apache Spark脫胎于加州伯克利大學(xué)AMPLab實驗室團隊。自誕生伊始，Spark就與MapReduce進行比較，MapReduce是Hadoop最初的數(shù)據(jù)處理引擎，因?qū)Υ髷?shù)據(jù)集的分布式處理能力而廣受關(guān)注，但在效率方面飽受詬病。MapReduce以批處理方式進行計算，無法很好地應(yīng)對流處理模式(比如物聯(lián)網(wǎng)項目)。而且，MapReduce沒有內(nèi)存計算的選項，每次計算后都要將結(jié)果寫入外部存儲，這使得迭代式的任務(wù)相當(dāng)耗時。

因此，Apache Spark近些年發(fā)展迅猛，在全球23個國家50個城市擁有66個小組，會員人數(shù)超過21000。作為Spark的創(chuàng)建方，AMPLab開發(fā)了基于內(nèi)存計算的Spark、Tachyon、GraphX、SparkR等大數(shù)據(jù)處理框架和技術(shù)，憑借超強的數(shù)據(jù)處理速度、對復(fù)雜數(shù)據(jù)的實時分析能力及高易用性，受到業(yè)界追捧。

在中國，大數(shù)據(jù)方興未艾。Wikibon的調(diào)研數(shù)據(jù)顯示，大數(shù)據(jù)正逐漸成為全球IT支出的全新增長點。中國也得益于人口和行業(yè)的規(guī)模，以及正在迅速拓展的數(shù)字經(jīng)濟，正在成為大數(shù)據(jù)技術(shù)應(yīng)用的高地。

大數(shù)據(jù)金牌訓(xùn)練營AMPCamp移師中國

為了幫助研發(fā)和應(yīng)用大數(shù)據(jù)技術(shù)的中國開發(fā)者與企業(yè)技術(shù)人員深入了解這些開源大數(shù)據(jù)技術(shù)的精髓與應(yīng)用優(yōu)勢，讓他們能夠更好地參與到相關(guān)技術(shù)創(chuàng)新與實踐的進程中來，在美國連續(xù)舉辦了五屆的大數(shù)據(jù)金牌訓(xùn)練營AMPCamp移師中國。

在上海舉辦的首屆AMPCamp@China訓(xùn)練營的成功離不開英特爾的支持。實際上，英特爾除了擁有業(yè)界無可匹敵的硬件，在軟件領(lǐng)域的表現(xiàn)也可圈可點。2012年，英特爾就和美國加州伯克利大學(xué)進行了很緊密的合作，圍繞Apache Spark軟件開展了技術(shù)開發(fā)、代碼優(yōu)化、應(yīng)用拓展等多個維度的緊密合作，并且在Spark社區(qū)貢獻代碼量排名全球第三。

英特爾大數(shù)據(jù)首席架構(gòu)師戴金權(quán)表示，英特爾大數(shù)據(jù)團隊主要投入到大數(shù)據(jù)開源社區(qū)的核心項目上。從Spark、Hadoop、Hbase到Hive等，今天英特爾全球有超過22位員工作為項目核心committer，領(lǐng)導(dǎo)社區(qū)進行開源項目開發(fā)。

戴金權(quán)補充，英特爾一直致力于幫助合作伙伴和用戶在開放架構(gòu)的大數(shù)據(jù)平臺上開發(fā)多樣化、差異化的應(yīng)用。向各個行業(yè)的用戶提供大數(shù)據(jù)實踐層面的技術(shù)支持，積極參與到大數(shù)據(jù)領(lǐng)域的人才培養(yǎng)事業(yè)中。

他說：“我們英特爾將進一步拓展和深化與開源社區(qū)、產(chǎn)業(yè)界、學(xué)術(shù)界的合作，所有基于開放架構(gòu)的主流大數(shù)據(jù)軟件技術(shù)，特別是開源技術(shù)，都是我們提供平臺優(yōu)化和技術(shù)支持的目標。”

與國內(nèi)學(xué)界在大數(shù)據(jù)方面的合作

Intel除了公司內(nèi)開展諸多大數(shù)據(jù)技術(shù)與系統(tǒng)研發(fā)外，還與國內(nèi)學(xué)界開展了大數(shù)據(jù)技術(shù)合作研究，其中合作最早的學(xué)校之一是南京大學(xué)PASA大數(shù)據(jù)實驗室。

作為國內(nèi)最早開展大數(shù)據(jù)技術(shù)研究和教學(xué)的課題組之一，南京大學(xué)PASA大數(shù)據(jù)實驗室近六年來在大數(shù)據(jù)技術(shù)領(lǐng)域開展了一系列系統(tǒng)深入的研究開發(fā)工作，積累了系統(tǒng)的研究和技術(shù)基礎(chǔ)。南京大學(xué)PASA大數(shù)據(jù)實驗室學(xué)術(shù)帶頭人黃宜華教授告訴TechTarget中國：“我們的重點是圍繞大數(shù)據(jù)處理技術(shù)與系統(tǒng)工具平臺研究，主要覆蓋分布式存儲、并行化計算與并行化分析算法三個層面。”

從2010年開始與英特爾合作，南京大學(xué)PASA大數(shù)據(jù)實驗室進行了Hadoop性能優(yōu)化、基于Intel Xeon Phi眾核處理器的并行化算法研究、大規(guī)模中文文本語義分析技術(shù)研究、Spark和Tachyon性能優(yōu)化研究、以及分布式文件系統(tǒng)性能評測技術(shù)與工具研究工作。

黃宜華教授表示，Intel不僅是一個在處理器和硬件方面世界領(lǐng)先的企業(yè)，在軟件方面也是一個技術(shù)力量雄厚的企業(yè)。尤其是，基于在硬件和體系結(jié)構(gòu)層面的技術(shù)優(yōu)勢，英特爾在大數(shù)據(jù)系統(tǒng)的性能優(yōu)化方面具有獨特的技術(shù)優(yōu)勢。

除了合作研究工作以外Intel還資助南京大學(xué)開展了大數(shù)據(jù)技術(shù)教學(xué)和課程建設(shè)方面的工作，攜手大數(shù)據(jù)技術(shù)教學(xué)與人才培養(yǎng)，以進一步推動大數(shù)據(jù)技術(shù)及其應(yīng)用的發(fā)展。

Spark還能如何提升?

如今，眾多IT界大佬都將Spark加入到了自己的Hadoop發(fā)行版里，期望其能成為通用的大數(shù)據(jù)技術(shù)。但也有專家認為Spark還有需要完善的地方，例如內(nèi)存計算穩(wěn)定性問題。

戴金權(quán)表示，英特爾利用開放架構(gòu)的潛能，使大數(shù)據(jù)技術(shù)能夠真正轉(zhuǎn)化成為各行各業(yè)解析數(shù)據(jù)價值。也期望用戶對大數(shù)據(jù)技術(shù)的更多采納和應(yīng)用能夠反過來驅(qū)動大數(shù)據(jù)技術(shù)創(chuàng)新生態(tài)系統(tǒng)的加速發(fā)展。

訓(xùn)練營 TechTarget Hive