俺也去也网,91av不卡在线

大數(shù)據(jù)平臺：Hadoop輕盈起舞

責任編輯：vivian

2011-12-21 08:54:31

摘自：TechTarget中國

IBM指出大數(shù)據(jù)的三個要素是容量、速度和種類（Variety和velocity和volume）。那么對于企業(yè)而言，面對具備這些特性的數(shù)據(jù)該如何管理和治理呢？

經(jīng)濟低迷讓眾多公司感到力不從心，最終高管們寄望于獲得比以往更多的信息，以便他們可以做出正確的決策。然而，在IT服務(wù)公司Avanade所做的一項有543位業(yè)務(wù)和IT高管參與的調(diào)查中，我們發(fā)現(xiàn)高管們其實感覺正在被數(shù)據(jù)所淹沒。所以問題未必就要收集越多的數(shù)據(jù)越好，而是要能夠識別出業(yè)務(wù)相關(guān)數(shù)據(jù)。

大數(shù)據(jù)技術(shù)正在迅速發(fā)展。各類分析機構(gòu)對于大數(shù)據(jù)的報告也是層出不窮。而目前，能夠使用該技術(shù)的公司擁有非常精通技術(shù)的IT人員，能夠根據(jù)這項技術(shù)的發(fā)展和本公司的具體需求來進行調(diào)整和適應(yīng)。IBM指出大數(shù)據(jù)的三個要素是容量、速度和種類（Variety和velocity和volume）。那么對于企業(yè)而言，面對具備這些特性的數(shù)據(jù)該如何管理和治理呢？

大數(shù)據(jù)平臺

曾聽到這樣一種預(yù)言，未來五年，半個世界的數(shù)據(jù)將會出現(xiàn)在Hadoop中。為此，相關(guān)廠商提供了各種各樣的連接器和方法，來訪問和分析Hadoop存儲的信息，但問題是如何利用存儲于Hadoop中的信息？于是“大數(shù)據(jù)平臺”概念問世。根據(jù)IBM的觀點，“大數(shù)據(jù)平臺”主要包含五個核心的功能：

（1）容量、速率和種類。大數(shù)據(jù)不是一大堆數(shù)據(jù)，來源形式不同，可能是結(jié)構(gòu)化的，也可能是非結(jié)構(gòu)化的，可能進入平臺的速率也不一樣，都要處理。

（2）分析。這也是IBM常說的從大數(shù)據(jù)中提煉出一種數(shù)據(jù)洞察力，而且不是單純地將不同的數(shù)據(jù)源和各種信息轉(zhuǎn)化成一種結(jié)構(gòu)化的關(guān)系格式。

（3）企業(yè)級功能。高可用性架構(gòu)支持硬件和應(yīng)用失?。贿\行在可擴展的硬件上，能夠動態(tài)增加結(jié)點；數(shù)據(jù)訪問控制的安全保護。

（4）易用的環(huán)境，這一點尤其是針對開發(fā)者。因為畢竟Hadoop和MapReduce還是不簡單，如果說有一個平臺可以讓一般水平的開發(fā)者能夠更容易地利用Hadoop，這對于企業(yè)的業(yè)務(wù)來說是不無裨益的。

（5）集成。大數(shù)據(jù)的出現(xiàn)不能成為企業(yè)新的“孤島”，為了能夠避免這種情況的發(fā)生，平臺就需要能夠支持用一些關(guān)系數(shù)據(jù)技術(shù)等資源來集成大數(shù)據(jù)環(huán)境，把大數(shù)據(jù)集成到數(shù)據(jù)倉庫中。

IBM軟件集團大中華區(qū)信息管理軟件總經(jīng)理盧偉權(quán)先生在“大數(shù)據(jù)時代的信息管理”IBM IM年度媒體發(fā)布會表示，對于非結(jié)構(gòu)化數(shù)據(jù)如何管理與分析將成為IBM未來一年在大數(shù)據(jù)技術(shù)上的關(guān)注點所在。

IBM軟件集團大中華區(qū)信息管理軟件總經(jīng)理盧偉權(quán)先生

未來一年，信息整合和治理將出現(xiàn)前所未有的重要性，對于大數(shù)據(jù)集成平臺而言，主要關(guān)注于數(shù)據(jù)來源，如何管理和治理。在這一點上應(yīng)該考慮幾個主要的問題：集成多種源，大數(shù)據(jù)的處理環(huán)境并不是數(shù)據(jù)的發(fā)源地。數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理，如果要用這些數(shù)據(jù)做分析并制定決策，這些數(shù)據(jù)就要能夠信任。這一點而言，大數(shù)據(jù)平臺必須支持數(shù)據(jù)質(zhì)量和數(shù)據(jù)治理。盧偉權(quán)介紹：“我們數(shù)據(jù)管理這一塊最主要是要提供一個平臺，讓我們的客戶可以在這個平臺里提供的數(shù)據(jù)和提供的信息是最準確的。”

Hadoop和大數(shù)據(jù)

毫無疑問，Hadoop和大數(shù)據(jù)正在影響如何處理海量數(shù)據(jù)，而且同樣毫無疑問的是大數(shù)據(jù)已經(jīng)吸引了主流業(yè)務(wù)的目光。Forrester的調(diào)研也顯示客戶已經(jīng)不在詢問“什么是Hadoop”了。但是我們也要問，誰來提供穩(wěn)健的Hadoop解決方案呢？

IBM中國開發(fā)中心信息管理首席架構(gòu)師及大數(shù)據(jù)架構(gòu)師陳奇博士介紹：“Infosphere Biglnsights是企業(yè)級平臺，建立在Hadoop的基礎(chǔ)上。用于對靜態(tài)大數(shù)據(jù)進行分析。”

IBM中國開發(fā)中心信息管理首席架構(gòu)師及大數(shù)據(jù)架構(gòu)師陳奇博士

Hadoop提供兩層?xùn)|西，一層簡單的存儲系統(tǒng)，是分布式的存儲系統(tǒng)，它的存儲把文件分成不同的小塊，存在不同的節(jié)點上，每一小塊都有備份，不是在單一節(jié)點上，可以自己增加節(jié)點，增加節(jié)點又可以增加容量，為什么可以處理大數(shù)據(jù)，因為它的節(jié)點是可以隨時隨地增加的。

二是運算框架。陳奇博士介紹谷歌最早使用MapReduce技術(shù)，而Hadoop則基于這項技術(shù)，非常適合讀取密集型、面向成批的應(yīng)用程序。陳奇博士說：“它的理論很簡單，像滿足谷歌數(shù)據(jù)量非常大的需求，它需要存儲很便宜，PC服務(wù)器就可以，把文件系統(tǒng)做成虛擬化的，可以分布在不同的節(jié)點上，增加了節(jié)點就增加了容量，就進行了并行計算。但光有這個架構(gòu)是遠遠不夠的，所以IBM在Hadoop上的BigInsights做了很多改進。”

Hadoop本身不提供分析的功能，IBM Biglnsights則增加了文本分析功能。文本分析要能夠為獲取的數(shù)據(jù)預(yù)設(shè)一種環(huán)境，就比如，處理無數(shù)的源的時候，要能夠確定這個信息是否是你關(guān)心的。這也可能意味著我們要集成MDM系統(tǒng)的數(shù)據(jù)，或者其他企業(yè)應(yīng)用中的數(shù)據(jù)。再把這的信息放到一種環(huán)境中。

對于當今企業(yè)，除了能夠掌握大量信息所產(chǎn)生的價值之外，如何快速響應(yīng)需求，敏捷應(yīng)對市場變化成為制勝挖寶，而實時分析則成為大型企業(yè)追求的目標。陳奇博士介紹Infosphere Streams能夠即時處理、過濾并分析流數(shù)據(jù)，他說：“Streams其實就是一個程序的架構(gòu)，所以它的數(shù)據(jù)源是各種各樣的，既可以是結(jié)構(gòu)化，也可以是非結(jié)構(gòu)化的數(shù)據(jù)源。這些數(shù)據(jù)源的數(shù)據(jù)量是非常巨大的，Streams利用的架構(gòu)就是我剛才說的在內(nèi)存里進行處理。”Infosphere Streams能夠提供編程模型、控制手段、基礎(chǔ)設(shè)施，而且在需要按比例擴展流程處理時，可以跨越分布式X86處理節(jié)點部署和操控這些應(yīng)用程序。

大數(shù)據(jù)技能

大數(shù)據(jù)分析對于企業(yè)的價值不言而喻，隨之而來的就會有很多工作挑戰(zhàn)等著我們。新世紀大數(shù)據(jù)分析團隊會需要哪些技能呢？自然包括語言處理和文本發(fā)掘，還要精通Clojure、Scala、Python、Hadoop和Java；同樣也包括用像R和Mathlab這樣的工具進行數(shù)據(jù)發(fā)掘的技能；還要懂得腳本和功能性語言，像Erlang和LISP，像Cassandra和CouchDB這樣少見的新的數(shù)據(jù)庫開發(fā)技能。

但未來，新生事物會逐漸成熟，工具則成為用戶的得力助手。廠商也根據(jù)不同的用戶水平制定了不同層級的工具。于企業(yè)而言，大數(shù)據(jù)的獨一無二之處在于，企業(yè)可以將大數(shù)據(jù)作為一種探索來進行，而不是回答摸個特定的問題的方法。

Hadoop 大數(shù)據(jù)