Hadoop環(huán)境中管理大數(shù)據(jù)存儲八大技巧

責任編輯:editor004

2017-04-14 09:50:32

摘自:大講臺

我們可以通過創(chuàng)建一個單一,可刪重和壓縮的數(shù)據(jù)湖獲取數(shù)據(jù)效率  理想的數(shù)據(jù)湖基礎(chǔ)架構(gòu)會實現(xiàn)數(shù)據(jù)單一副本的存儲,而且有應用在單一數(shù)據(jù)資源上執(zhí)行,無需遷移數(shù)據(jù)或制作副本。

在現(xiàn)如今,隨著IT互聯(lián)網(wǎng)信息技術(shù)的飛速發(fā)展和進步。目前大數(shù)據(jù)行業(yè)也越來越火爆,從而導致國內(nèi)大數(shù)據(jù)人才也極度缺乏,大講臺了解這一情況后專門在網(wǎng)上開通了這一門大數(shù)據(jù)培訓課程,下面來介紹一下關(guān)于Hadoop環(huán)境中管理大數(shù)據(jù)存儲技巧吧。

   1、分布式存儲

傳統(tǒng)化集中式存儲存在已有一段時間。但大數(shù)據(jù)并非真的適合集中式存儲架構(gòu)。Hadoop設(shè)計用于將計算更接近數(shù)據(jù)節(jié)點,同時采用了HDFS文件系統(tǒng)的大規(guī)模橫向擴展功能。

雖然,通常解決Hadoop管理自身數(shù)據(jù)低效性的方案是將Hadoop數(shù)據(jù)存儲在SAN上。但這也造成了它自身性能與規(guī)模的瓶頸?,F(xiàn)在,如果你把所有的數(shù)據(jù)都通過集中式SAN處理器進行處理,與Hadoop的分布式和并行化特性相悖。你要么針對不同的數(shù)據(jù)節(jié)點管理多個SAN,要么將所有的數(shù)據(jù)節(jié)點都集中到一個SAN。

但Hadoop是一個分布式應用,就應該運行在分布式存儲上,這樣存儲就保留了與Hadoop本身同樣的靈活性,不過它也要求擁抱一個軟件定義存儲方案,并在商用服務器上運行,這相比瓶頸化的Hadoop自然更為高效。

2、超融合VS分布式

注意,不要混淆超融合與分布式。某些超融合方案是分布式存儲,但通常這個術(shù)語意味著你的應用和存儲都保存在同一計算節(jié)點上。這是在試圖解決數(shù)據(jù)本地化的問題,但它會造成太多資源爭用。這個Hadoop應用和存儲平臺會爭用相同的內(nèi)存和CPU。Hadoop運行在專有應用層,分布式存儲運行在專有存儲層這樣會更好。之后,利用緩存和分層來解決數(shù)據(jù)本地化并補償網(wǎng)絡性能損失。

3、避免控制器瓶頸(ControllerChokePoint)

實現(xiàn)目標的一個重要方面就是——避免通過單個點例如一個傳統(tǒng)控制器來處理數(shù)據(jù)。反之,要確保存儲平臺并行化,性能可以得到顯著提升。

此外,這個方案提供了增量擴展性。為數(shù)據(jù)湖添加功能跟往里面扔x86服務器一樣簡單。一個分布式存儲平臺如有需要將自動添加功能并重新調(diào)整數(shù)據(jù)。

4、刪重和壓縮

掌握大數(shù)據(jù)的關(guān)鍵是刪重和壓縮技術(shù)。通常大數(shù)據(jù)集內(nèi)會有70%到90%的數(shù)據(jù)簡化。以PB容量計,能節(jié)約數(shù)萬美元的磁盤成本?,F(xiàn)代平臺提供內(nèi)聯(lián)(對比后期處理)刪重和壓縮,大大降低了存儲數(shù)據(jù)所需能力。

5、合并Hadoop發(fā)行版

很多大型企業(yè)擁有多個Hadoop發(fā)行版本。可能是開發(fā)者需要或是企業(yè)部門已經(jīng)適應了不同版本。無論如何最終往往要對這些集群的維護與運營。一旦海量數(shù)據(jù)真正開始影響一家企業(yè)時,多個Hadoop發(fā)行版存儲就會導致低效性。我們可以通過創(chuàng)建一個單一,可刪重和壓縮的數(shù)據(jù)湖獲取數(shù)據(jù)效率

6、虛擬化Hadoop

虛擬化已經(jīng)席卷企業(yè)級市場。很多地區(qū)超過80%的物理服務器現(xiàn)在是虛擬化的。但也仍有很多企業(yè)因為性能和數(shù)據(jù)本地化問題對虛擬化Hadoop避而不談。

7、創(chuàng)建彈性數(shù)據(jù)湖

創(chuàng)建數(shù)據(jù)湖并不容易,但大數(shù)據(jù)存儲可能會有需求。我們有很多種方法來做這件事,但哪一種是正確的?這個正確的架構(gòu)應該是一個動態(tài),彈性的數(shù)據(jù)湖,可以以多種格式(架構(gòu)化,非結(jié)構(gòu)化,半結(jié)構(gòu)化)存儲所有資源的數(shù)據(jù)。更重要的是,它必須支持應用不在遠程資源上而是在本地數(shù)據(jù)資源上執(zhí)行。

不幸的是,傳統(tǒng)架構(gòu)和應用(也就是非分布式)并不盡如人意。隨著數(shù)據(jù)集越來越大,將應用遷移到數(shù)據(jù)不可避免,而因為延遲太長也無法倒置。

理想的數(shù)據(jù)湖基礎(chǔ)架構(gòu)會實現(xiàn)數(shù)據(jù)單一副本的存儲,而且有應用在單一數(shù)據(jù)資源上執(zhí)行,無需遷移數(shù)據(jù)或制作副本。

8、整合分析

分析并不是一個新功能,它已經(jīng)在傳統(tǒng)RDBMS環(huán)境中存在多年。不同的是基于開源應用的出現(xiàn),以及數(shù)據(jù)庫表單和社交媒體,非結(jié)構(gòu)化數(shù)據(jù)資源(比如,維基百科)的整合能力。關(guān)鍵在于將多個數(shù)據(jù)類型和格式整合成一個標準的能力,有利于更輕松和一致地實現(xiàn)可視化與報告制作。合適的工具也對分析/商業(yè)智能項目的成功至關(guān)重要。

以上就是關(guān)于北京大講臺大數(shù)據(jù)培訓Hadoop環(huán)境中管理大數(shù)據(jù)存儲技巧的詳細介紹,想要了解更多關(guān)于大數(shù)據(jù)的新聞資訊,請關(guān)注大講臺官網(wǎng)、微信等平臺,大講臺IT職業(yè)在線學習教育平臺為您提供權(quán)威的大數(shù)據(jù)培訓課程和視頻教程系統(tǒng),通過大講臺金牌講師在線錄制的第一套自適應Hadoop在線視頻課程系統(tǒng),讓你快速掌握Hadoop從入門到精通大數(shù)據(jù)開發(fā)實戰(zhàn)技能。

鏈接已復制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號