博客精選:Hadoop各商業(yè)發(fā)行版之比較

責任編輯:vivian

2012-11-19 09:06:35

摘自:比特網(wǎng)

Hadoop的發(fā)行版除了社區(qū)的Apache hadoop外,cloudera,hortonworks,mapR,EMC,IBM,INTEL,華為等等都提供了自己的商業(yè)版本。

Hadoop的發(fā)行版除了社區(qū)的Apache hadoop外,cloudera,hortonworks,mapR,EMC,IBM,INTEL,華為等等都提供了自己的商業(yè)版本。商業(yè)版主要是提供了專業(yè)的技術支持,這對一些大型企業(yè)尤其重要。每個發(fā)行版都有自己的一些特點,本文就各發(fā)行版做簡單介紹。

2008 年成立的 Cloudera 是最早將 Hadoop 商用的公司,為合作伙伴提供 Hadoop 的商用解決方案,主要是包括支持,咨詢服務,培訓。2009年hadoop的創(chuàng)始人 Doug Cutting也任職于 Cloudera 公司。Cloudera產品主要為CDH,Cloudera Manager,Cloudera Support。CDH是Cloudera的hadoop發(fā)行版,完全開源,比Apache hadoop在兼容性,安全性,穩(wěn)定性上有增強。Cloudera Manager是集群的軟件分發(fā)及管理監(jiān)控平臺,可以在幾個小時內部署好一個hadoop集群,并對集群的節(jié)點及服務進行實時監(jiān)控。Cloudera Support即是對hadoop的技術支持。cloudera的標價為每年每個節(jié)點4000美元。

2011年成立的Hortonworks是雅虎與硅谷風投公司Benchmark Capital合資組建的公司。公司成立之初吸納了大約25名至30名專門研究Hadoop的雅虎工程師,上述工程師均在2005年開始協(xié)助雅虎開發(fā)Hadoop,這些工程師貢獻了hadoop 80%的代碼。。雅虎工程副總裁、雅虎Hadoop開發(fā)團隊負責人Eric Baldeschwieler出任Hortonworks的首席執(zhí)行官。Hortonworks 的主打產品是Hortonworks Data Platform (HDP),也同樣是100%開源的產品,HDP除了常見的項目外還包含了Ambari,一款開源的安裝和管理系統(tǒng)。HCatalog,一個元數(shù)據(jù)管理系統(tǒng)。

博客精選:Hadoop各商業(yè)發(fā)行版之比較

HDP的Datasheet中描述的版本特點是

集成和測試封裝 – HDP包括穩(wěn)定版本的Apache Hadoop的所有關鍵組件,集成和測試封裝。

安裝方便– HDP包括一個現(xiàn)代化的,直觀的用戶界面的安裝和配置工具。

管理和監(jiān)控服務 – HDP包括直觀的儀表板,為監(jiān)測集群和建立警示。

數(shù)據(jù)集成服務 – HDP包括Talend大數(shù)據(jù)平臺,領先的開源整合工具,輕松連接Hadoop集群,而無需編寫Hadoop代碼的數(shù)據(jù)系統(tǒng)集成工具。

元數(shù)據(jù)服務 – HDP包括的Apache HCatalog,從而簡化了Hadoop的應用程序之間和Hadoop和其他數(shù)據(jù)系統(tǒng)之間的數(shù)據(jù)共享。

高可用性– HDP與成熟的高可用性解決方案的無縫集成。

定價以集群為基礎,每10個節(jié)點每年為12500美元。

cloudera和hortonworks均是在不斷的提交代碼完善Apache hadoop,而2009年成立的MapR公司在Hadoop領域顯得有點特立獨行,它提供了一款獨特的發(fā)行版 。Hadoop在性能(在當前Hadoop的設計中,所有的meta data操作都要通過集中式的Namenode來進行,Namenode有可能是性能的瓶頸;M/R 應用程序需要通過DataNode來訪問HDFS, 這就涉及到格外的進程切換和網(wǎng)絡傳輸開銷),可靠性與擴展性(namenode,jobtracker單點問題),企業(yè)級應用上的弱點(比如完全可讀寫的文件系統(tǒng),snapshot,mirror等等)各大廠商均知,MapR則認為,Hadoop的這些缺陷來自于其架構設計本身,小修小補不能解決問題。他們選擇了一條艱難得多的路: 用新架構重寫HDFS,同時在API級別,和目前的Hadoop 發(fā)行版保持兼容。這家2009年成立的創(chuàng)業(yè)公司,在蟄伏了兩年之后,終于一鳴驚人,大放異彩。他們成功的“構建一個HDFS的私有替代品,這個替代品比當前的開源版本快三倍,自帶快照功能,而且支持無Namenode單點故障(SPOF),并且在API上和兼容,所以可以考慮將其作為替代方案。” mapR版本不再需要單獨的namenode機器,元數(shù)據(jù)分散在集群中,也類似數(shù)據(jù)默認存儲三份。也不再需要用NAS來協(xié)助namenode做元數(shù)據(jù)備份,提供了機器使用率。還有個重要的特點的可以使用nfs直接訪問hdfs,提供了與舊有應用的兼容性。鏡像功能也很適合做數(shù)據(jù)備份,而且支持跨數(shù)據(jù)中心的鏡像,快照功能對于數(shù)據(jù)的恢復作用明顯。據(jù)報道m(xù)apR標價也為每年每個節(jié)點4000美元。

博客精選:Hadoop各商業(yè)發(fā)行版之比較

 

博客精選:Hadoop各商業(yè)發(fā)行版之比較

 

mapR有免費和商業(yè)兩個版本,免費版本在功能上有所縮減。

博客精選:Hadoop各商業(yè)發(fā)行版之比較

EMC的Greenplum HD是基于mapR版本二次開發(fā)改造而成,特點同mapR。

IBM在去年5月推出了InfoSphere BigInsights軟件。該軟件包括Apache Hadoop發(fā)行版、面向MapReduce編程的Pig編程語言、針對IBM的DB2數(shù)據(jù)庫的連接件以及IBM BigSheets,后者是一種基于瀏覽器的、使用電子表格隱喻(spreadsheet-metaphor)的界面,用于探究和分析Hadoop里面的數(shù)據(jù)。IBM在平臺管理,安全認證,作業(yè)調度算法,與DB2及netezza的集成上做了增強。從IBM中國開發(fā)中心信息管理總經(jīng)理朱輝下面這句話就可以看出IBM對于biginsights的定位:BigInsights并沒有替代OLAP(Online Analytical Processing)或OLTP(Online Transaction Processing)應用程序,但它可以整合其中,用于“過濾大量原始數(shù)據(jù)并合并結果,將結果以結構化數(shù)據(jù)的形式保存在DBMS或數(shù)據(jù)倉庫中”。

博客精選:Hadoop各商業(yè)發(fā)行版之比較

傳統(tǒng)的硬件廠商,華為,Intel也提供hadoop的版本

Intel 的商業(yè)版本,主要是強調其能提供全面的軟硬件解決方案設計,針對硬件具有更好的性能優(yōu)化,以及提供集群管理工具和安裝工具簡化了 Hadoop 的安裝和配置,能夠提供項目規(guī)劃到實施各階段專業(yè)的咨詢服務,實際中采購Intel版本貌似動力不足。

華為在硬件上具有天然的優(yōu)勢,在網(wǎng)絡,虛擬化,PC機等都有很強的硬件實力。華為的hadoop版本基于自研的Hadoop HA平臺,構建NameNode、JobTracker、HiveServer的HA功能,進程故障后系統(tǒng)自動Failover,無需人工干預,這個也是對hadoop的小修補,遠不如mapR解決的徹底。華為在hadoop社區(qū)中的Contributor和committer也是國內最多的,算是國內技術實力較強的公司。

鏈接已復制,快去分享吧

企業(yè)網(wǎng)版權所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號