大數(shù)據(jù)計(jì)算架構(gòu)三國(guó)爭(zhēng)霸勝負(fù)未明

責(zé)任編輯:jackye

作者:巫山

2017-02-07 09:17:57

摘自:中關(guān)村在線

從人工統(tǒng)計(jì)分析到電腦 大型機(jī)再到今天的分布式計(jì)算平臺(tái),數(shù)據(jù)處理速度飛速提高的背后則是整體架構(gòu)的不斷演進(jìn)。

短短幾年時(shí)間,大數(shù)據(jù)這個(gè)詞便已家喻戶曉。但在大數(shù)據(jù)這個(gè)名詞被命名之前,人類(lèi)對(duì)數(shù)據(jù)的搜集與分析已有著悠久的歷史。從人工統(tǒng)計(jì)分析到電腦/大型機(jī)再到今天的分布式計(jì)算平臺(tái),數(shù)據(jù)處理速度飛速提高的背后則是整體架構(gòu)的不斷演進(jìn)。今天大數(shù)據(jù)架構(gòu)最火熱的莫過(guò)于Hadoop,Spark和Storm這三種,而Spark和Storm這兩個(gè)后起之秀更是搶了不少Hadoop的風(fēng)頭,也讓網(wǎng)上逐漸開(kāi)始有一種聲音說(shuō)Hadoop的日子已經(jīng)快到頭了。但究竟這三者之間是什么關(guān)系,未來(lái)大數(shù)據(jù)架構(gòu)究竟該走向何方呢?

分布式計(jì)算架構(gòu)鼻祖Hadoop

所謂分布式計(jì)算過(guò)程就像螞蟻搬家一樣,將一個(gè)大型任務(wù)分割成很多部分,每一臺(tái)電腦相當(dāng)于一個(gè)小螞蟻將其中一部分搬走。Hadoop作為分布式系統(tǒng)的基礎(chǔ)架構(gòu),其重要性不言而喻。Hadoop的數(shù)據(jù)處理工作在硬盤(pán)層面,借助HDFS(分布式文件系統(tǒng)),可以將架構(gòu)下每一臺(tái)電腦中的硬盤(pán)資源聚集起來(lái),不論是存儲(chǔ)計(jì)算還是調(diào)用都可以視為一塊硬盤(pán)使用,就像以前電腦中的C盤(pán),D盤(pán),之后使用集群管理和調(diào)度軟件YARN,相當(dāng)于Windows,畢竟我們要進(jìn)行編程首先需要一個(gè)操作系統(tǒng),最后利用Map/Reduce計(jì)算框架相當(dāng)于Virtual Studio,就可以在這上面進(jìn)行計(jì)算編程。從而大幅降低了整體計(jì)算平臺(tái)的硬件投入成本。而這也就是最基礎(chǔ)的分布式計(jì)算架構(gòu)。

大數(shù)據(jù)計(jì)算架構(gòu)三國(guó)爭(zhēng)霸勝負(fù)未明

  流數(shù)據(jù)處理雙雄Spark和Storm

所謂流數(shù)據(jù)處理其實(shí)不難理解,比如看網(wǎng)上視頻,都是下載一段看一段,然后快結(jié)束的時(shí)候自動(dòng)下載下一段。由于Hadoop的計(jì)算過(guò)程放在硬盤(pán),受制于硬件條件限制,數(shù)據(jù)的吞吐和處理速度明顯不如使用內(nèi)存來(lái)的快。于是Spark和Storm開(kāi)始登上舞臺(tái)。Spark和Storm兩者最大的區(qū)別在于實(shí)時(shí)性:Spark是準(zhǔn)實(shí)時(shí),先收集一段時(shí)間的數(shù)據(jù)再進(jìn)行統(tǒng)一處理,好比看網(wǎng)頁(yè)統(tǒng)計(jì)票數(shù)每隔幾秒刷新一次,而Storm則是完全實(shí)時(shí),來(lái)一條數(shù)據(jù)就處理一條。當(dāng)然Storm實(shí)時(shí)處理方式所帶來(lái)的缺點(diǎn)也是很明顯的,不論離線批處理,高延遲批處理還是交互式查詢都不如Spark框架。不同的機(jī)制決定了兩者架構(gòu)適用的場(chǎng)景不同,比如炒股,股價(jià)的變化不是按秒計(jì)算的(Spark實(shí)時(shí)計(jì)算延遲度是秒級(jí)),在高頻交易中,高頻獲利與否往往就在1ms(0.001秒)之間,而這恰好就是Storm的實(shí)時(shí)計(jì)算延遲度。

大數(shù)據(jù)計(jì)算架構(gòu)三國(guó)爭(zhēng)霸勝負(fù)未明

  混合架構(gòu),各顯神通

今天大數(shù)據(jù)的混合架構(gòu)就像目前云計(jì)算市場(chǎng)中風(fēng)頭最勁的混合云一樣,成為大多數(shù)公司的首選。每一種架構(gòu)都有其自身的獨(dú)特優(yōu)缺點(diǎn),就像Hadoop,盡管數(shù)據(jù)處理的速度和難易度都遠(yuǎn)比不過(guò)Spark和Storm。但是由于硬盤(pán)斷電后數(shù)據(jù)可以長(zhǎng)期保存,因此在處理需要長(zhǎng)期存儲(chǔ)的數(shù)據(jù)時(shí)還是需要借助Hadoop。不過(guò)Hadoop由于具有非常好的兼容性,因此非常容易的同Spark和Storm進(jìn)行結(jié)合,從而滿足公司的不同需求。

縱觀技術(shù)的發(fā)展史,我們可以看到,每一項(xiàng)新技術(shù)的問(wèn)世都有著之前技術(shù)的身影,伴隨著大數(shù)據(jù)的需求增長(zhǎng),不同的架依然會(huì)不斷進(jìn)化,并改進(jìn)自身的缺點(diǎn),從而使得自身架構(gòu)得到進(jìn)一步的完善。就目前來(lái)看Hadoop,Spark和Storm目前遠(yuǎn)談不到誰(shuí)取代誰(shuí)。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)