經(jīng)濟低迷讓眾多公司感到力不從心,最終高管們寄望于獲得比以往更多的信息,以便他們可以做出正確的決策。然而,在IT服務(wù)公司Avanade所做的一項有543位業(yè)務(wù)和IT高管參與的調(diào)查中,我們發(fā)現(xiàn)高管們其實感覺正在被數(shù)據(jù)所淹沒。所以問題未必就要收集越多的數(shù)據(jù)越好,而是要能夠識別出業(yè)務(wù)相關(guān)數(shù)據(jù)。
大數(shù)據(jù)技術(shù)正在迅速發(fā)展。各類分析機構(gòu)對于大數(shù)據(jù)的報告也是層出不窮。而目前,能夠使用該技術(shù)的公司擁有非常精通技術(shù)的IT人員,能夠根據(jù)這項技術(shù)的發(fā)展和本公司的具體需求來進行調(diào)整和適應(yīng)。IBM指出大數(shù)據(jù)的三個要素是容量、速度和種類(Variety和velocity和volume)。那么對于企業(yè)而言,面對具備這些特性的數(shù)據(jù)該如何管理和治理呢?
大數(shù)據(jù)平臺
曾聽到這樣一種預(yù)言,未來五年,半個世界的數(shù)據(jù)將會出現(xiàn)在Hadoop中。為此,相關(guān)廠商提供了各種各樣的連接器和方法,來訪問和分析Hadoop存儲的信息,但問題是如何利用存儲于Hadoop中的信息?于是“大數(shù)據(jù)平臺”概念問世。根據(jù)IBM的觀點,“大數(shù)據(jù)平臺”主要包含五個核心的功能:
(1)容量、速率和種類。大數(shù)據(jù)不是一大堆數(shù)據(jù),來源形式不同,可能是結(jié)構(gòu)化的,也可能是非結(jié)構(gòu)化的,可能進入平臺的速率也不一樣,都要處理。
(2)分析。這也是IBM常說的從大數(shù)據(jù)中提煉出一種數(shù)據(jù)洞察力,而且不是單純地將不同的數(shù)據(jù)源和各種信息轉(zhuǎn)化成一種結(jié)構(gòu)化的關(guān)系格式。
(3)企業(yè)級功能。高可用性架構(gòu)支持硬件和應(yīng)用失?。贿\行在可擴展的硬件上,能夠動態(tài)增加結(jié)點;數(shù)據(jù)訪問控制的安全保護。
(4)易用的環(huán)境,這一點尤其是針對開發(fā)者。因為畢竟Hadoop和MapReduce還是不簡單,如果說有一個平臺可以讓一般水平的開發(fā)者能夠更容易地利用Hadoop,這對于企業(yè)的業(yè)務(wù)來說是不無裨益的。
(5)集成。大數(shù)據(jù)的出現(xiàn)不能成為企業(yè)新的“孤島”,為了能夠避免這種情況的發(fā)生,平臺就需要能夠支持用一些關(guān)系數(shù)據(jù)技術(shù)等資源來集成大數(shù)據(jù)環(huán)境,把大數(shù)據(jù)集成到數(shù)據(jù)倉庫中。
IBM軟件集團大中華區(qū)信息管理軟件總經(jīng)理盧偉權(quán)先生在“大數(shù)據(jù)時代的信息管理”IBM IM年度媒體發(fā)布會表示,對于非結(jié)構(gòu)化數(shù)據(jù)如何管理與分析將成為IBM未來一年在大數(shù)據(jù)技術(shù)上的關(guān)注點所在。
IBM軟件集團大中華區(qū)信息管理軟件總經(jīng)理盧偉權(quán)先生
未來一年,信息整合和治理將出現(xiàn)前所未有的重要性,對于大數(shù)據(jù)集成平臺而言,主要關(guān)注于數(shù)據(jù)來源,如何管理和治理。在這一點上應(yīng)該考慮幾個主要的問題:集成多種源,大數(shù)據(jù)的處理環(huán)境并不是數(shù)據(jù)的發(fā)源地。數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理,如果要用這些數(shù)據(jù)做分析并制定決策,這些數(shù)據(jù)就要能夠信任。這一點而言,大數(shù)據(jù)平臺必須支持數(shù)據(jù)質(zhì)量和數(shù)據(jù)治理。盧偉權(quán)介紹:“我們數(shù)據(jù)管理這一塊最主要是要提供一個平臺,讓我們的客戶可以在這個平臺里提供的數(shù)據(jù)和提供的信息是最準確的。”
Hadoop和大數(shù)據(jù)
毫無疑問,Hadoop和大數(shù)據(jù)正在影響如何處理海量數(shù)據(jù),而且同樣毫無疑問的是大數(shù)據(jù)已經(jīng)吸引了主流業(yè)務(wù)的目光。Forrester的調(diào)研也顯示客戶已經(jīng)不在詢問“什么是Hadoop”了。但是我們也要問,誰來提供穩(wěn)健的Hadoop解決方案呢?
IBM中國開發(fā)中心信息管理首席架構(gòu)師及大數(shù)據(jù)架構(gòu)師陳奇博士介紹:“Infosphere Biglnsights是企業(yè)級平臺,建立在Hadoop的基礎(chǔ)上。用于對靜態(tài)大數(shù)據(jù)進行分析。”
IBM中國開發(fā)中心信息管理首席架構(gòu)師及大數(shù)據(jù)架構(gòu)師陳奇博士
Hadoop提供兩層?xùn)|西,一層簡單的存儲系統(tǒng),是分布式的存儲系統(tǒng),它的存儲把文件分成不同的小塊,存在不同的節(jié)點上,每一小塊都有備份,不是在單一節(jié)點上,可以自己增加節(jié)點,增加節(jié)點又可以增加容量,為什么可以處理大數(shù)據(jù),因為它的節(jié)點是可以隨時隨地增加的。
二是運算框架。陳奇博士介紹谷歌最早使用MapReduce技術(shù),而Hadoop則基于這項技術(shù),非常適合讀取密集型、面向成批的應(yīng)用程序。陳奇博士說:“它的理論很簡單,像滿足谷歌數(shù)據(jù)量非常大的需求,它需要存儲很便宜,PC服務(wù)器就可以,把文件系統(tǒng)做成虛擬化的,可以分布在不同的節(jié)點上,增加了節(jié)點就增加了容量,就進行了并行計算。但光有這個架構(gòu)是遠遠不夠的,所以IBM在Hadoop上的BigInsights做了很多改進。”
Hadoop本身不提供分析的功能,IBM Biglnsights則增加了文本分析功能。文本分析要能夠為獲取的數(shù)據(jù)預(yù)設(shè)一種環(huán)境,就比如,處理無數(shù)的源的時候,要能夠確定這個信息是否是你關(guān)心的。這也可能意味著我們要集成MDM系統(tǒng)的數(shù)據(jù),或者其他企業(yè)應(yīng)用中的數(shù)據(jù)。再把這的信息放到一種環(huán)境中。
對于當今企業(yè),除了能夠掌握大量信息所產(chǎn)生的價值之外,如何快速響應(yīng)需求,敏捷應(yīng)對市場變化成為制勝挖寶,而實時分析則成為大型企業(yè)追求的目標。陳奇博士介紹Infosphere Streams能夠即時處理、過濾并分析流數(shù)據(jù),他說:“Streams其實就是一個程序的架構(gòu),所以它的數(shù)據(jù)源是各種各樣的,既可以是結(jié)構(gòu)化,也可以是非結(jié)構(gòu)化的數(shù)據(jù)源。這些數(shù)據(jù)源的數(shù)據(jù)量是非常巨大的,Streams利用的架構(gòu)就是我剛才說的在內(nèi)存里進行處理。”Infosphere Streams能夠提供編程模型、控制手段、基礎(chǔ)設(shè)施,而且在需要按比例擴展流程處理時,可以跨越分布式X86處理節(jié)點部署和操控這些應(yīng)用程序。
大數(shù)據(jù)技能
大數(shù)據(jù)分析對于企業(yè)的價值不言而喻,隨之而來的就會有很多工作挑戰(zhàn)等著我們。新世紀大數(shù)據(jù)分析團隊會需要哪些技能呢?自然包括語言處理和文本發(fā)掘,還要精通Clojure、Scala、Python、Hadoop和Java;同樣也包括用像R和Mathlab這樣的工具進行數(shù)據(jù)發(fā)掘的技能;還要懂得腳本和功能性語言,像Erlang和LISP,像Cassandra和CouchDB這樣少見的新的數(shù)據(jù)庫開發(fā)技能。
但未來,新生事物會逐漸成熟,工具則成為用戶的得力助手。廠商也根據(jù)不同的用戶水平制定了不同層級的工具。于企業(yè)而言,大數(shù)據(jù)的獨一無二之處在于,企業(yè)可以將大數(shù)據(jù)作為一種探索來進行,而不是回答摸個特定的問題的方法。