運(yùn)用Hadoop處理大數(shù)據(jù):有秘訣可循

責(zé)任編輯:editor006

2014-02-24 09:19:46

來(lái)源:企業(yè)網(wǎng)D1Net

原創(chuàng)

在大數(shù)據(jù)時(shí)代下,提起Hadoop,相信很多人都耳熟能詳,隨著大數(shù)據(jù)處理技術(shù)走進(jìn)人們的視野,人們對(duì)Hadoop的了解也越來(lái)越深入。作為大數(shù)據(jù)技術(shù)的典范,Hadoop一直為采用大數(shù)據(jù)的企業(yè)祝福并詛咒著

《企業(yè)網(wǎng)D1Net》2月24日訊

在大數(shù)據(jù)時(shí)代下,提起Hadoop,相信很多人都耳熟能詳,隨著大數(shù)據(jù)處理技術(shù)走進(jìn)人們的視野,人們對(duì)Hadoop的了解也越來(lái)越深入。作為大數(shù)據(jù)技術(shù)的典范,Hadoop一直為采用大數(shù)據(jù)的企業(yè)祝福并詛咒著。

Hadoop功能強(qiáng)大,卻非常復(fù)雜,這使得很多企業(yè)都寧愿等待更容易的東西問(wèn)世,再推出大數(shù)據(jù)項(xiàng)目。

等待已經(jīng)結(jié)束。Hadoop在穩(wěn)步前進(jìn),來(lái)自諸如Hortonworks和Cloudera等廠商顯著的易用性增強(qiáng),使得Hadoop的學(xué)習(xí)曲線已經(jīng)減少了一半。企業(yè)正越來(lái)越多擁抱大數(shù)據(jù)和Hadoop,目的是從基本的ETL工作負(fù)載遷移到先進(jìn)的數(shù)據(jù)分析。

但更多人不知道的是,企業(yè)使用Hadoop處理大數(shù)據(jù)的訣竅,其實(shí)就是從小處著手。

采用Hadoop的關(guān)鍵小處開(kāi)始大數(shù)據(jù)之旅???這似乎是與Hadoop關(guān)系不大的一個(gè)詞。但它完全符合大數(shù)據(jù)的現(xiàn)實(shí)。我們往往談?wù)揌adoop在PB級(jí)和ZB級(jí)數(shù)據(jù)的優(yōu)勢(shì),但大部分企業(yè)其實(shí)并不具備PB級(jí)規(guī)模的問(wèn)題。至少,他們現(xiàn)在還不清楚怎么去管理這種級(jí)別的問(wèn)題。

相反,大數(shù)據(jù)咨詢公司NewVantage Partners的一項(xiàng)調(diào)查顯示,企業(yè)首先關(guān)注的是掌握新類型的非結(jié)構(gòu)化數(shù)據(jù)。Gartner證實(shí)了這一點(diǎn),它指出:“許多組織發(fā)現(xiàn)大數(shù)據(jù)的多樣性比大體量或?qū)崟r(shí)性的挑戰(zhàn)更大。”

因此,聰明的Hadoop廠商正在修正他們的策略,幫助企業(yè)從小規(guī)模部署著手,并從那里成長(zhǎng)。

我們已經(jīng)看到可重復(fù)的采用模式,從側(cè)重于一個(gè)新的數(shù)據(jù)類型開(kāi)始,并建立或增強(qiáng)有針對(duì)性的應(yīng)用程序,圍繞新的數(shù)據(jù)類型。這些新的應(yīng)用程序通常由一個(gè)業(yè)務(wù)線驅(qū)動(dòng),并從以下新類型之一的數(shù)據(jù)開(kāi)始:社交媒體,點(diǎn)擊流,服務(wù)器日志,傳感器和機(jī)器數(shù)據(jù),地理定位數(shù)據(jù)和文件(文本,視頻,音頻等)。

最終部署更多的應(yīng)用和新的數(shù)據(jù)類型導(dǎo)致更廣泛的現(xiàn)代化數(shù)據(jù)架構(gòu)。但成功的客戶開(kāi)始從特定類型的數(shù)據(jù)釋放價(jià)值,然后沖洗,并從那里重復(fù)他們的旅程。對(duì)于證明Hadoop的價(jià)值,從小的、可衡量的項(xiàng)目啟動(dòng),這是一個(gè)偉大的方式,不強(qiáng)迫企業(yè)在前期就吞下整個(gè)大象。這是一個(gè)聰明的策略,讓強(qiáng)大的技術(shù)可以很容易地被采納。

這樣一來(lái),Hadoop正在變成人們真正想要談?wù)摰姆块g里的大象。雖然更多的人都在談?wù)摯髷?shù)據(jù),但實(shí)際推出重要的大數(shù)據(jù)項(xiàng)目的組織要少得多,這些公司看重的是Hadoop大數(shù)據(jù)項(xiàng)目帶來(lái)的實(shí)質(zhì)性增長(zhǎng),可實(shí)現(xiàn)的商業(yè)價(jià)值,而不是Hadoop的炒作。

事實(shí)上,今天大多數(shù)大數(shù)據(jù)項(xiàng)目,往往以現(xiàn)有用例的增量改進(jìn)為重點(diǎn),例如,更好地了解客戶的需求,使流程更加高效,進(jìn)一步降低成本,或更好地檢測(cè)風(fēng)險(xiǎn)。對(duì)于所有的關(guān)于大大改變一個(gè)企業(yè)的業(yè)務(wù)的談?wù)摚蟛糠值拇髷?shù)據(jù)以及由此延伸的大多數(shù)的Hadoop的部署,重點(diǎn)是逐步改進(jìn),而不是徹底改變的項(xiàng)目。

這是有道理的。企業(yè)首先小步驟地采用Hadoop實(shí)施可以實(shí)現(xiàn)的項(xiàng)目,然后掌握該技術(shù),然后再做大。

在2014年,我們將看到Hadoop被加速采用。Hortonworks的Connolly和Cloudera的Mike Olson都看到了他們的業(yè)務(wù)在2013年獲得迅速的發(fā)展,且最后兩個(gè)季度的發(fā)展節(jié)奏更快。這樣的加速度反映了他們對(duì)營(yíng)銷信息的改善,已圍繞企業(yè)如何更容易地從Hadoop真正獲得價(jià)值,同時(shí)也表明,企業(yè)從Hadoop獲得價(jià)值的門檻已經(jīng)降低。

D1Net評(píng)論:

作為大數(shù)據(jù)主要處理技術(shù)的Hadoop,對(duì)大數(shù)據(jù)的重要性不言而喻,然而,在運(yùn)用Hadoop處理大數(shù)據(jù)的同時(shí),會(huì)出現(xiàn)很多誤區(qū),要謹(jǐn)記Hadoop越專注于小規(guī)模部署,最終用于大規(guī)模部署的可能性越大,切不可再陷入誤區(qū)。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)