在過去三年,Hadoop生態(tài)系統(tǒng)已經大范圍擴展,很多主要IT供應商都推出了Hadoop連接器,以增強Hadoop的頂層架構或是供應商自己使用的Hadoop發(fā)行版。鑒于Hadoop的部署率呈指數級的增長,以及其生態(tài)系統(tǒng)不斷地深入而廣泛地發(fā)展,我們很想知道Hadoop的崛起是否會導致傳統(tǒng)數據倉庫解決方案的終結呢。
我們也可以將這個問題放到一個更大的環(huán)境中去討論:在何種程度上,大數據會改變傳統(tǒng)數據分析的環(huán)境?
數據倉庫是技術和軟件套件,它能夠從操作系統(tǒng)收集數據,并將這些數據整合,并統(tǒng)一到中央數據庫中,然后對數據儀表盤上指標進行分析、可視化和追蹤關鍵性能處理。
數據倉庫和Hadoop之間的主要區(qū)別是:數據倉庫通常部署在單個關系數據庫中,而這個數據庫則起到中央存儲的作用。相比之下,Hadoop及其Hadoop文件系統(tǒng)是跨多個機器,并用來處理海量數據的,而這是任何單臺機器都達不到的能力。
此外,Hadoop生態(tài)系統(tǒng)包括構建在Hadoop核心之上的數據倉庫層/服務,而Hadoop上層服務包括SQL(Presto)、SQL-Like(Hive)和NoSQL(Hbase)類型的數據存儲。相比之下,在過去的十年中,大型數據倉庫轉移到使用自定義多處理器設備來擴展數據量,像Netezza(被IBM收購)和Teradata所提供的數據倉庫。然而,這些設備都非常昂貴,大多數中小企業(yè)都負擔不起。
在這種背景下,我們很自然地要問:Hadoop是否是數據倉庫的終結者?
為了回答這個問題,我們需要將數據倉庫技術與數據倉庫部署分開來看。Hadoop(和NoSQL數據庫的出現(xiàn))將預示著數據倉庫設備和傳統(tǒng)數據倉庫單一數據庫部署的消亡。
而在這方面就有過實例。Hadoop供應商Cloudera將其平臺作為“企業(yè)數據樞紐”,這在本質上將傳統(tǒng)數據管理解決方案的納入了需求。ReadWrite.com在最近發(fā)表的一篇題為“為什么專有大數據技術沒有希望與Hadoop競爭”的文章中也發(fā)表了類似的看法。同樣地,最近一篇華爾街日報文章描述了Hadoop如何挑戰(zhàn)甲骨文和Teradata。
Hadoop或NoSQL生態(tài)系統(tǒng)仍將繼續(xù)發(fā)展。很多大數據環(huán)境開始選擇NoSQL、SQL甚至是NewSQL數據倉庫的混合方法。此外,MapReduce并行處理引擎也有變化和改進,例如Apache的Spark項目。雖然這個故事還遠遠沒有結束,但可以說,傳統(tǒng)的單一服務器關系型數據庫或數據庫設備并不是大數據或數據倉儲的未來。
另一方面,數據倉庫技術(包括提取—轉換—和—加載、三維建模和商業(yè)智能)將會應用到新的Hadoop/NoSQL環(huán)境。此外,這些技術也將變身來支持更多的混合環(huán)境。主要原則是因為并不是所有數據都是平等的,所以IT經理們應該選擇數據存儲和訪問機制來適應數據的使用。混合環(huán)境將包括關鍵價值存儲、關系型數據庫、圖形存儲、文檔存儲、柱狀存儲、XML數據庫、元數據目錄等等。
正如你所看到的,這并不是一個簡單的問題,也不可能簡單地得出一個答案。然而,一般情況下,雖然大數據在未來五年內將會改變數據倉庫的部署,但它不會導致數據倉庫的概念和做法過時。
對于向數據倉庫投入巨資的聯(lián)邦政府這意味著什么呢?
首先,當現(xiàn)有數據倉庫的容量不夠時,數據倉庫將被轉移到基于Hadoop、多機器或云托管的解決方案。其次,企業(yè)并不會選擇“放之四海而皆準”的做法,而會將目光轉向適合其企業(yè)內部數據容量的混合存儲方法。