Hadoop處于這個十年的大數(shù)據(jù)革命的暴風(fēng)眼。自從Hadoop在2008年作為Apache開源項(xiàng)目發(fā)布以來,它就一直讓人備感興奮,原因在于它結(jié)合了成本低、可擴(kuò)展性佳以及無需構(gòu)建預(yù)定義模式(predefined schema)就能靈活地處理任何數(shù)據(jù)等優(yōu)點(diǎn)。許多人覺得,Hadoop有望帶來全新一代的數(shù)據(jù)處理功能,就像結(jié)構(gòu)化查詢語言(SQL)30多年前在數(shù)據(jù)計算領(lǐng)域引發(fā)革命那樣。
但是Hadoop不太成熟,在某些方面與SQL相比完全很原始、很粗陋。一些開路先鋒已經(jīng)投入至少六年的時間來開發(fā)Hadoop,其中大多數(shù)人在雅虎等互聯(lián)網(wǎng)巨頭開始接觸這種框架。Hadoop取得的成功同時也促使主流市場對其穩(wěn)定性、成熟的管理等更高的需求,包括SQL環(huán)境具有的那些豐富功能等等。
現(xiàn)在所有人寄希望于Hadoop廠商們開發(fā)出成熟可靠的工具、功能和技術(shù)創(chuàng)新。這個社區(qū)中有影響力的主要廠商包括Cloudera和亞馬遜。Cloudera是開山鼻祖,現(xiàn)在也是Hadoop軟件的最主要來源,它擁有CDH發(fā)行版和配套的管理軟件。它還是為Hadoop提供企業(yè)支持和培訓(xùn)服務(wù)的最大供應(yīng)商。亞馬遜很早就進(jìn)入了這個領(lǐng)域,其亞馬遜彈性MapReduce服務(wù)在公共云中運(yùn)行Hadoop。
2011年,MapR和Hortonworks(后者從雅虎拆分出來)一下子備受矚目,它們宣布了各自的Hadoop軟件發(fā)行版,另外提供支持和培訓(xùn)服務(wù);至于MapR,它還提供旨在提供高性能的專有版本。Hadoop要有所改進(jìn),競爭是一個方面,所以市面上出現(xiàn)更多版本以及新的支持和培訓(xùn)服務(wù)應(yīng)該讓每個人都受益。
數(shù)據(jù)處理是一回事,但是大多數(shù)Hadoop用戶最終希望實(shí)現(xiàn)的是分析數(shù)據(jù)。這時候,像Datameer、Hadapt和Karmasphere這些專門針對Hadoop的數(shù)據(jù)訪問、商業(yè)智能和分析工具廠商就閃亮登場了。
Hadoop邁向主流的標(biāo)志是在2011年,它得到了五家主要的數(shù)據(jù)庫和數(shù)據(jù)管理廠商的積極接受,EMC、IBM、Informatica、微軟和甲骨文都紛紛進(jìn)入Hadoop領(lǐng)域一較高下。IBM和EMC在去年發(fā)布了各自的發(fā)行版,后者還與MapR結(jié)為合作伙伴。微軟和甲骨文則分別與Hortonworks和Cloudera合作。EMC和甲骨文都發(fā)布了專門定制的硬件設(shè)備,隨時可以運(yùn)行Hadoop。Informatica擴(kuò)展了其數(shù)據(jù)集成平臺以支持Hadoop,現(xiàn)在它還將其解析代碼和數(shù)據(jù)轉(zhuǎn)換代碼直接融入到環(huán)境中。不妨深入了解這些有影響力的廠商們在Hadoop方面有怎樣的作為。
亞馬遜將MapReduce作為服務(wù)來交付
亞馬遜早在2009年就推出了亞馬遜彈性MapReduce(Amazon Elastic MapReduce),絕非很晚進(jìn)入Hadoop領(lǐng)域。所以說,亞馬遜對Hadoop的需求和應(yīng)用可謂了若指掌,無論用戶是運(yùn)行試點(diǎn)項(xiàng)目的新手,還是內(nèi)部部署的預(yù)置型系統(tǒng)遇到需求過載時,利用彈性MapReduce來獲取額外容量的專業(yè)人士。
彈性MapReduce是一項(xiàng)能夠迅速擴(kuò)展的Web服務(wù),運(yùn)行在亞馬遜彈性計算云(Amazon EC2)和亞馬遜簡單存儲服務(wù)(Amazon S3)上。這可是貨真價實(shí)的云:面對數(shù)據(jù)密集型任務(wù),比如互聯(lián)網(wǎng)索引、數(shù)據(jù)挖掘、日志文件分析、機(jī)器學(xué)習(xí)、金融分析、科學(xué)模擬和生物信息學(xué)研究,用戶需要多大容量,立即就能配置到多大容量。
除了數(shù)據(jù)處理外,用戶還可以使用Karmasphere Analyst的基于服務(wù)的版本,Karmasphere Analyst是一種可視化工作區(qū),用于在亞馬遜彈性MapReduce上分析數(shù)據(jù)。Karmasphere提供了可視化工具,以便使用SQL及其他語言,針對在亞馬遜S3、亞馬遜彈性MapReduce作業(yè)流或本地文件系統(tǒng)上的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),執(zhí)行即席查詢和分析。用戶還可以提取結(jié)果文件,以便在數(shù)據(jù)庫或者微軟Excel或Tableau等工具中使用。
Cloudera力求Hadoop的企業(yè)安全性
作為歷史最悠久、實(shí)力最強(qiáng)大的Hadoop軟件和服務(wù)提供商,Cloudera公司自2008年以來就一直致力于將開源Apache Hadoop打造成一款供企業(yè)使用的可靠平臺。這家公司有100多個客戶,不過鑒于Cloudera最近與IT業(yè)界老大的數(shù)據(jù)庫供應(yīng)商甲骨文結(jié)為合作伙伴,今年其客戶數(shù)量有望大幅增加。
Cloudera為其Apache Hadoop軟件發(fā)行版增添了兩個重要部分:一個是用于控制和管理Hadoop部署環(huán)境的Cloudera管理器控制臺,另一個是企業(yè)級支持。Cloudera管理器提供了基于向?qū)У陌惭b和配置菜單,以便部署Hadoop。另外,它還提供了一些工具,幫助系統(tǒng)管理人員監(jiān)控平臺的運(yùn)行狀況、診斷問題、優(yōu)化性能,以及在配置和安全方面作出所需的變更。
Cloudera支持服務(wù)分每天8小時每周五天或每天24小時每周七天這兩種,服務(wù)包括配置檢查、問題逐級上報和解決、與第三方系統(tǒng)集成以及知識庫、文章及其他技術(shù)資源。除了現(xiàn)有的這些服務(wù)外,還有培訓(xùn)和咨詢服務(wù)。Cloudera 企業(yè)解決方案包括Hadoop軟件發(fā)行版、Cloudera管理器及支持,標(biāo)價為每年每個節(jié)點(diǎn)4000美元(不包括硬件)。
Datameer將商業(yè)智能運(yùn)用到大數(shù)據(jù)上
Datameer公司宣稱其Datameer分析解決方案(DAS)是一款面向Hadoop、針對企業(yè)用戶的商業(yè)智能(BI)平臺。但是DAS并不將Hadoop當(dāng)作信息孤島:它可以通過JDBC、Hive、HTTP或其他標(biāo)準(zhǔn),連接到任何數(shù)據(jù)源。它包含了一個由向?qū)?qū)動的集成平臺,讓用戶可以安排調(diào)度負(fù)載,并且轉(zhuǎn)換來自任何這些數(shù)據(jù)源的龐大的結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)集。然后,用戶可以通過類似電子表格的DAS界面,運(yùn)用180多項(xiàng)分析功能中的任何一項(xiàng)功能。企業(yè)用戶可以獲得拖放式報告和儀表板功能。DAS可以在私有云或公共云上運(yùn)行,而且有一套代表性狀態(tài)傳輸(REST)應(yīng)用編程接口(API),用于數(shù)據(jù)導(dǎo)入和導(dǎo)出。
EMC提供單一的數(shù)據(jù)分析平臺
EMC自稱其EMC Greenplum統(tǒng)一分析平臺(UAP)是一款單一軟件平臺,數(shù)據(jù)團(tuán)隊(duì)和分析團(tuán)隊(duì)可以在該平臺上無縫地共享信息、協(xié)作分析,沒必要在不同的孤島上工作,或者在不同的孤島之間轉(zhuǎn)移數(shù)據(jù)。正因?yàn)槿绱?,UAP包括ECM Greenplum關(guān)系數(shù)據(jù)庫、EMC Greenplum HD Hadoop發(fā)行版和EMC Greenplum Chorus,而后者是一種協(xié)作式、類似社交網(wǎng)絡(luò)的界面,可供數(shù)據(jù)分析團(tuán)隊(duì)處理,無論團(tuán)隊(duì)成員是有博士頭銜的數(shù)據(jù)科學(xué)家、數(shù)據(jù)集成專家和商業(yè)智能分析員,還是數(shù)據(jù)庫管理員和業(yè)務(wù)部門的用戶及管理人員。
EMC為大數(shù)據(jù)開發(fā)的硬件是模塊化的EMC數(shù)據(jù)計算設(shè)備(DCA),它能夠在一個設(shè)備里面運(yùn)行并擴(kuò)展Greenplum關(guān)系數(shù)據(jù)庫和Greenplum HD節(jié)點(diǎn)。DCA提供了一個共享的指揮中心(Command Center)界面,讓管理員可以監(jiān)控、管理和配置Greenplum數(shù)據(jù)庫和Hadoop系統(tǒng)性能及容量。UAP軟件將數(shù)據(jù)訪問、管理和工作流統(tǒng)一起來,并與其他數(shù)據(jù)源和數(shù)據(jù)處理方法聯(lián)系起來;隨著Hadoop平臺日趨成熟,預(yù)計分析功能會急劇增加。
Hadapt統(tǒng)一關(guān)系數(shù)據(jù)庫環(huán)境和Hadoop環(huán)境
Hive是在Hadoop上運(yùn)行的Apache數(shù)據(jù)倉庫組件,它一向以速度慢而出名。這時候,Hadapt上場了,它提供了一體化的分析環(huán)境,旨在對Hadoop里面的數(shù)據(jù)執(zhí)行分析操作,還能對SQL環(huán)境中傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析。Hadapt公司表示,通常采用的方法是使用由擴(kuò)充型連接件聯(lián)系起來的兩個不同系統(tǒng),但是這帶來了延遲,因而導(dǎo)致這種方法顯得很孤立。而Hadapt的平臺設(shè)計成了可以在私有云或公共云環(huán)境上運(yùn)行,提供了從一個環(huán)境就能訪問所有數(shù)據(jù)的優(yōu)點(diǎn),所以除了MapReduce流程和大數(shù)據(jù)分析工具外,現(xiàn)有的基于SQL的工具也可以使用。Hadapt可以在Hadoop層和關(guān)系數(shù)據(jù)庫層之間自動劃分查詢執(zhí)行任務(wù),提供了Hadapt所謂的優(yōu)化環(huán)境,這種環(huán)境可以充分利用Hadoop的可擴(kuò)展性和關(guān)系數(shù)據(jù)庫技術(shù)的快速度。
Hortonworks發(fā)揚(yáng)了雅虎的Hadoop傳統(tǒng)
Hortonworks公司在2011年從雅虎拆分出來,憑借一支由近50人組成的核心團(tuán)隊(duì)(其中一些人是Hadoop社區(qū)最資深最多產(chǎn)的貢獻(xiàn)者),辦成了一家完全致力于推進(jìn)這個開源平臺的獨(dú)立公司。Hortonworks的主管們堅(jiān)稱,這支雅虎團(tuán)隊(duì)開發(fā)了Hadoop平臺背后的大部分代碼,將在引領(lǐng)該平臺的未來方面起到推動作用。
Hortonworks拉到的第一張重要的信任票(除了獲得風(fēng)險創(chuàng)新資金外)是在去年10月與微軟結(jié)為合作伙伴;通過這種合作關(guān)系,Hortonworks將幫助微軟開發(fā)與Windows兼容,同時恪守Apache開源項(xiàng)目原則的Hadoop版本。Hortonworks隨后在去年11月推出了Hortonworks數(shù)據(jù)平臺(HDP)v1,Hadoop平臺的這個發(fā)行版不久將在2012年第一季度更新到v2版本,會加入最新的(0.23)Apache Hadoop版本。Hortonworks還提供Hadoop支持、培訓(xùn)和咨詢,給Cloudera和MapR加大了競爭力度。
IBM提供BigInsights、BigSheets和BigCloud
僅僅幾年前,IBM開始在其實(shí)驗(yàn)室嘗試使用Hadoop,但是它在去年將相關(guān)產(chǎn)品和服務(wù)納入到商業(yè)版,甲骨文和微軟在其之后才宣布各自也將積極接受該平臺。IBM在去年5月推出了InfoSphere BigInsights軟件。該軟件包包括Apache Hadoop發(fā)行版、面向MapReduce編程的Pig編程語言、針對IBM的DB2數(shù)據(jù)庫的連接件以及IBM BigSheets,后者是一種基于瀏覽器的、使用電子表格隱喻(spreadsheet-metaphor)的界面,用于探究和分析Hadoop里面的數(shù)據(jù)。
IBM隨后又在10月通過其智慧云企業(yè)(SmartCloud Enterprise)基礎(chǔ)架構(gòu),將BigInsights和BigSheets作為一項(xiàng)服務(wù)來提供。這項(xiàng)服務(wù)分基礎(chǔ)版和企業(yè)版;一大賣點(diǎn)就是客戶不必購買支持性硬件,也不需要IT專門知識,就可以學(xué)習(xí)和試用大數(shù)據(jù)處理和分析功能。據(jù)IBM聲稱,客戶用不了30分鐘就能搭建起Hadoop集群,并將數(shù)據(jù)轉(zhuǎn)移到集群里面,數(shù)據(jù)處理費(fèi)用是每個集群每小時60美分起價。
Informatica走得更深入一步
許多數(shù)據(jù)集成和數(shù)據(jù)管理廠商(IBM、甲骨文、Syncsort和Talend)處理的是很明顯的任務(wù):讓數(shù)據(jù)進(jìn)出Hadoop。Informatica公司在去年10月則更深入一步,當(dāng)時它推出了HParser,這是一種針對Hadoop而優(yōu)化的數(shù)據(jù)轉(zhuǎn)換環(huán)境。據(jù)Informatica聲稱,軟件支持靈活高效地處理Hadoop里面的任何文件格式,為Hadoop開發(fā)人員提供了即開即用的解析功能,以便處理復(fù)雜而多樣的數(shù)據(jù)源,包括日志、文檔、二進(jìn)制數(shù)據(jù)或?qū)哟问綌?shù)據(jù),以及眾多行業(yè)標(biāo)準(zhǔn)格式(如銀行業(yè)的NACHA、支付業(yè)的SWIFT、金融數(shù)據(jù)業(yè)的FIX和保險業(yè)的ACORD)。正如數(shù)據(jù)庫內(nèi)處理技術(shù)加快了各種分析方法,Informatica同樣將解析代碼添加到Hadoop里面,以便充分利用所有這些處理功能,不久會添加其他的數(shù)據(jù)處理代碼。
Informatica旨在提供一款單一平臺,希望能夠借助統(tǒng)一的環(huán)境和方法,全面滿足數(shù)據(jù)管理和數(shù)據(jù)集成方面的要求。這家公司的企業(yè)客戶超過4300個,它估計10%以上的客戶正進(jìn)入到大數(shù)據(jù)領(lǐng)域(大數(shù)據(jù)的容量超過100TB)。市場地位和技術(shù)創(chuàng)新使得Informatica成為值得關(guān)注的一家Hadoop專業(yè)廠商。
Karmasphere玩轉(zhuǎn)Hadoop數(shù)據(jù)分析
來自傳統(tǒng)商業(yè)智能領(lǐng)域的眾多廠商(Jaspersoft、Pentaho、Tableau Software及其他公司)現(xiàn)在將其工具和技術(shù)對準(zhǔn)了Hadoop這一數(shù)據(jù)源。但是自2010年以來,Karmasphere公司就一直在幫助數(shù)據(jù)專業(yè)人員挖掘和分析Hadoop里面的互聯(lián)網(wǎng)、移動設(shè)備、傳感器和社交媒體等數(shù)據(jù)。
Karmasphere提供了直接訪問Hadoop里面結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的優(yōu)點(diǎn),它還可以運(yùn)用SQL及其他語言,用于即席查詢和進(jìn)一步的分析。Karmasphere Analyst是核心協(xié)作工作區(qū),以便數(shù)據(jù)專業(yè)人員和數(shù)據(jù)分析員可以直接訪問Hadoop里面的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。使用SQL及其他語言,用戶就能創(chuàng)建即席查詢,然后處理結(jié)果。Karmasphere Studio為開發(fā)人員提供了一種圖形化環(huán)境,可以在里面開發(fā)自定義算法,為應(yīng)用程序和可重復(fù)的生產(chǎn)流程創(chuàng)建實(shí)用的數(shù)據(jù)集。 Karmasphere與Hadoop領(lǐng)域的多家知名廠商達(dá)成了合作關(guān)系,面向亞馬遜彈性MapReduce的Karmasphere Analyst和Karmasphere Studio將相關(guān)工具運(yùn)用到了這主要的基于云的MapReduce服務(wù)之一。
MapR Technologies聲稱性能更好
MapR公司在Hadoop領(lǐng)域顯得有點(diǎn)特立獨(dú)行,它提供了一款獨(dú)特的發(fā)行版。它從開源Apache項(xiàng)目獲取了該公司所需的組件,同時擯棄了它不喜歡的組件(特別是Hadoop分布式文件系統(tǒng)即HDFS,MapR認(rèn)為這是單一故障點(diǎn),并將它換成了基于Unix的網(wǎng)絡(luò)文件系統(tǒng))。
Cloudera和Hortonworks的這個競爭對手將其M5商業(yè)Hadoop發(fā)行版與支持、培訓(xùn)和咨詢等服務(wù)(M3發(fā)行版是免費(fèi)的,還與Apache Hadoop百分之百兼容)結(jié)合起來。MapR與EMC結(jié)為了合作伙伴,EMC采用M5作為其EMC Greenplum HD企業(yè)版的基礎(chǔ)。
Hadoop的最新(0.23)版本解決了MapR對Hadoop架構(gòu)有抱怨的諸多地方,但是這并沒有阻止這家公司繼續(xù)將性能發(fā)揮到極致,聲稱提供的性能勝過傳統(tǒng)的Hadoop發(fā)行版,而所需的硬件又只要一半。
微軟進(jìn)入這個市場
EMC、IBM和甲骨文在2011年都大力追捧Hadoop,于是微軟也進(jìn)入這個市場就不足為奇了。微軟在去年推出了基于Azure云平臺的測試版Hadoop服務(wù),今年它承諾會推出與Windows兼容的基于Hadoop的大數(shù)據(jù)解決方案(Big Data Solution),這是微軟SQL Server 2012版本(首發(fā)日期還不知道)的一部分。
對于一款迄今為止在Linux上運(yùn)行的開源平臺來說,在Windows上運(yùn)行無異于是項(xiàng)新本領(lǐng)。微軟的版本會是免費(fèi)、開源的嗎?這方面還沒有宣布,至于將來有沒有基于第三方硬件的支持性設(shè)備,也沒有任何動靜,而微軟與惠普及其他廠商合作開發(fā)了SQL Server并行數(shù)據(jù)倉庫。
微軟的主管們堅(jiān)持認(rèn)為,其發(fā)行版將“與Apache Hadoop核心保持一致、兼容。”考慮到微軟與從雅虎拆分出來的Hadoop專業(yè)廠商Hortonworks合作,開發(fā)Hadoop軟件發(fā)行版、向Hadoop社區(qū)重新捐獻(xiàn)代碼,這很可能是真的。
甲骨文走求大路線
今年1月發(fā)布的甲骨文大數(shù)據(jù)機(jī)(Oracle Big Data Appliance)將甲骨文-Sun分布式計算平臺與Cloudera的Apache Hadoop發(fā)行版、Cloudera管理器管理控制臺、R分析軟件的開源發(fā)行版以及甲骨文NoSQL數(shù)據(jù)庫結(jié)合起來。甲骨文還包括連接件,因而讓數(shù)據(jù)能夠在大數(shù)據(jù)機(jī)與甲骨文Exadata或傳統(tǒng)的甲骨文數(shù)據(jù)庫部署環(huán)境之間來回傳送。
甲骨文為這套綜合的軟硬件“工程一體化系統(tǒng)”提供了一線支持;但是即使出現(xiàn)棘手的Hadoop難題,甲骨文也可以利用Cloudera的專長,它還可以介紹客戶使用Cloudera的Hadoop培訓(xùn)和咨詢服務(wù)。
如果喜歡,客戶將來可以配置和使用大數(shù)據(jù)機(jī)捆綁軟件。它可能是清一色的Hadoop、清一色的NoSQL或者在同一平臺上兩種節(jié)點(diǎn)對半分。該設(shè)備將完全通過全機(jī)架(full-rack)配置來提供,每個機(jī)架配備864GB主內(nèi)存、216個處理器核心、648TB原始磁盤存儲容量,以及節(jié)點(diǎn)之間每秒40千兆的InifiniBand內(nèi)部連接。軟硬件總計售價將達(dá)到45萬美元,每年還要收取12%的軟硬件支持費(fèi)。這個價格頗具競爭力,相當(dāng)于每TB不到700美元。