今年一季度,大數(shù)據(jù)開源圈內(nèi)最熱鬧的一件事大概就是Hadoop迎來了它的十歲生日,收到了來自世界各地的各種祝福。Hadoop正式誕生于2006年1月28日,作為一個開源項目的生態(tài)系統(tǒng),它從根本上改變了企業(yè)存儲、處理和分析數(shù)據(jù)的方式:Hadoop可以在相同的數(shù)據(jù)上同時運(yùn)行不同類型的分析工作。
那一周,有媒體整理了Hadoop這十年來的數(shù)據(jù)變化:核心Hadoop中目前的代碼行數(shù)為170萬+、自2006年來對Hadoop的提交數(shù)量超過12000、自2006年來對核心Hadoop的代碼貢獻(xiàn)者有800+、Hadoop生態(tài)系統(tǒng)中的項目數(shù)量從2006年的2個到了25個。
一個月后,雅虎在二月底發(fā)布了CaffeOnSpark人工智能的源代碼,正式開源這一新的人工智能項目。Yahoo在科技方面的實力大概鮮有人知,其實,開源Hadoop就是Yahoo孵化的,F(xiàn)acebook、Twitter 以及其他不少公司都在用這個數(shù)據(jù)處理平臺。
CafffeOnSpark的根基是深度學(xué)習(xí),之前在基于Hadoop集群的大規(guī)模分布式深度學(xué)習(xí)一文中,雅虎就曾介紹,其集Caffe和Spark之長開發(fā)CaffeOnSpark用于大規(guī)模分布式深度學(xué)習(xí)。雅虎認(rèn)為,深度學(xué)習(xí)應(yīng)該與現(xiàn)有的,支持特征工程和傳統(tǒng)(非深度)機(jī)器學(xué)習(xí)的數(shù)據(jù)處理管道在同一個集群中,創(chuàng)建CaffeOnSpark意在使得深度學(xué)習(xí)訓(xùn)練和測試能被嵌入到Spark應(yīng)用程序中。
說到近期大數(shù)據(jù)領(lǐng)域的紅人就不得不提到Spark,近年人氣急劇攀升的Spark在今年更是動作頻頻,一月初剛剛發(fā)布了大版本1.6,三月又爆出2.0版本即將上線。
此外,在二月底舉行的Spark東部峰會上,硅谷最火的大數(shù)據(jù)初創(chuàng)公司Databricks也就內(nèi)存內(nèi)數(shù)據(jù)處理工具Spark的未來發(fā)展方向做了探討,以及發(fā)布了一系列相關(guān)提示。Databricks公司由來自Berkeley和MIT的Spark原班團(tuán)隊創(chuàng)立,作為Spark項目背后的核心商業(yè)支持方,它在該項技術(shù)成果的演進(jìn)道路上扮演著重要角色。
Databricks公司CTO兼Spark創(chuàng)始人MateiZaharia談到即將出爐的Spark2.0時提到,該版本將會有三大核心轉(zhuǎn)變:利用Tungsten項目的下一發(fā)展階段解決Java內(nèi)存處理局限,從而加快Spark運(yùn)行速度;將Spark改進(jìn)為一套實時數(shù)據(jù)流系統(tǒng);將Spark當(dāng)前使用的結(jié)構(gòu)化數(shù)據(jù)API(包括Dataset與DataFrame)統(tǒng)一為單一API。
而在演講中未被提及,但卻廣受Spark支持者關(guān)注的一項細(xì)節(jié)在于,Spark要如何進(jìn)一步與ApacheArrow加以結(jié)合——這一全新項目旨在為列式數(shù)據(jù)提供內(nèi)存內(nèi)版本,從而實現(xiàn)快速訪問成效。
三月初,思科宣布計劃未來三年在德國投資5億美元,以及設(shè)立1.5億美元的創(chuàng)新基金來幫助強(qiáng)化旗下的Spark服務(wù),挑戰(zhàn)企業(yè)通訊服務(wù)商Slack Technologies。思科一直在試圖使得自有的協(xié)作工具Spark勝過廣受歡迎的Slack服務(wù)。
同樣在三月初,Hortonworks,Inc.(NASDAQ: HDP)和Hewlett Packard Enterprise(NYSE: HPE)的核心研究組織Hewlett Packard Labs宣布了一項新合作,攜手增強(qiáng)最活躍的Apache大數(shù)據(jù)項目之一的Apache Spark。此次合作將側(cè)重于一個全新類別的分析工作,這種分析工作將受益于大量的共享內(nèi)存。并且公布了合作的早期成果:更強(qiáng)傳送引擎技術(shù),能夠更快排序和內(nèi)存計算;更好的內(nèi)存使用,能夠用更佳性能和使用來實現(xiàn)更廣泛的可升級性。
另外,Hortonworks和Hewlett Packard Enterprise計劃為Apache Spark社區(qū)帶來新技術(shù)。
最后還有一些開源信息,Google在去年底開放了深度學(xué)習(xí)網(wǎng)絡(luò)TensorFlow的源代碼;去年十二月,F(xiàn)acebook分享了人工智能硬件設(shè)計;一月,百度開源關(guān)鍵人工智能(AI)軟件Warp-CTC,公開了關(guān)鍵代碼;同期,Microsoft也開放了類似的網(wǎng)絡(luò)CNTK,中國搜索引擎巨頭百度也公開了深度學(xué)習(xí)訓(xùn)練軟件。