云端的大數(shù)據(jù)就像科幻小說(shuō)里對(duì)未來(lái)的描繪一樣:它在這,只是不是很均勻地分布罷了。
高調(diào)的廠商,比如AWS、谷歌、微軟、IBM和Rackspace等,都提供云基礎(chǔ)的Hadoop和NoSQL數(shù)據(jù)庫(kù)平臺(tái)來(lái)支持大數(shù)據(jù)應(yīng)用程序。很多初創(chuàng)公司都引入了云平臺(tái)上的管理服務(wù),按需部署自己的系統(tǒng)。大數(shù)據(jù)和云計(jì)算的融合往往是互聯(lián)網(wǎng)公司的首先項(xiàng),尤其是初創(chuàng)的軟件和數(shù)據(jù)服務(wù)供應(yīng)商。
但很多主流公司并不像互聯(lián)網(wǎng)公司那樣看重云端數(shù)據(jù)管理。一些公司擔(dān)心云端的數(shù)據(jù)安全和隱私保護(hù)。一些公司還在大型機(jī)和其他本地系統(tǒng)里運(yùn)行大部分操作。存儲(chǔ)在本地的數(shù)據(jù)量之大,讓數(shù)據(jù)遷移充滿挑戰(zhàn)。另外,現(xiàn)存數(shù)據(jù)中心可用的處理能力讓AWS和谷歌等公有云的成本優(yōu)勢(shì)不值一提,即使公司對(duì)于云系統(tǒng)所謂的降低成本、增加彈性有興趣,最終也未必會(huì)選擇它。
花旗集團(tuán)就是一個(gè)例子。隨著網(wǎng)絡(luò)成為普及的應(yīng)用界面,金融服務(wù)公司面對(duì)的是洪水般的非結(jié)構(gòu)化數(shù)據(jù)。它還需要處理線上金融應(yīng)用程序中不同的數(shù)據(jù)結(jié)構(gòu)。這些挑戰(zhàn)讓花旗集團(tuán)最后選擇了MongoDB NoSQL數(shù)據(jù)庫(kù)。MongoDB獲得了AWS和其他云平臺(tái)的支持?;ㄆ鞌?shù)據(jù)公司負(fù)責(zé)平臺(tái)工程的全球領(lǐng)導(dǎo)者M(jìn)ichael Simone表示,花旗選擇了在云端應(yīng)用該軟件。不過(guò)它應(yīng)用的是私有云,應(yīng)用限定在紐約公司的防火墻內(nèi),由它的IT部門全權(quán)管理。
在紐約的MongoDB大會(huì)上,Simone告訴與會(huì)者:“目前,我們還沒有擴(kuò)展私有云或集成公有云的打算?;ㄆ旒瘓F(tuán)的數(shù)據(jù)中心很大,技術(shù)積累也很深厚,我們可以構(gòu)建自己的內(nèi)部部署的云就算。”
大數(shù)據(jù)云才剛剛開始
總體來(lái)看,在云端運(yùn)行大數(shù)據(jù)系統(tǒng)仍然是小眾行為。在數(shù)據(jù)倉(cāng)庫(kù)研究院開發(fā)的大數(shù)據(jù)成熟度模型中,十個(gè)月內(nèi)有222名IT和業(yè)務(wù)專家完成了線上測(cè)評(píng),只有19%的人表示它們的組織在用公有云、私有云和混合云支持大數(shù)據(jù)應(yīng)用程序。另有40%的人表示正在考慮云部署,同時(shí)有超過(guò)三分之一的人表示它們沒有使用云計(jì)算的計(jì)劃。在企業(yè)管理協(xié)會(huì)和9sight咨詢公司開展的線上調(diào)查中,云計(jì)算使用比例略高:259名受訪者中,39%的人表示他們的大數(shù)據(jù)安裝包括云系統(tǒng)。
WeatherChannel公司是采用了公有云的案例,Basho技術(shù)公司在AWS可用性區(qū)域的多個(gè)分區(qū)運(yùn)行了Basho技術(shù)公司的NoSQL數(shù)據(jù)庫(kù)Riak的復(fù)制實(shí)例,處理和存儲(chǔ)來(lái)自衛(wèi)星、雷達(dá)系統(tǒng)、天氣站等來(lái)源的混合數(shù)據(jù)。該數(shù)據(jù)庫(kù)每五分鐘就為預(yù)測(cè)引擎更新3萬(wàn)6千多地理天氣網(wǎng)格的視圖,它還用于歸檔歷史數(shù)據(jù)。
美國(guó)TWC公司執(zhí)行副總裁兼CIO Bryson Koehler認(rèn)為,Riak的容錯(cuò)技術(shù)和同時(shí)支持內(nèi)存和硬盤存儲(chǔ)的功能特別好。經(jīng)過(guò)比較,因?yàn)樘幚硇Ч停髁麝P(guān)系型數(shù)據(jù)庫(kù)并不能適應(yīng)高容量的云環(huán)境,至少不能以較低的成本適應(yīng)高容量的云環(huán)境。
但是,在云端部署NoSQL軟件也是旨在擴(kuò)大TWC靈活性的更廣泛的IT戰(zhàn)略的題中之義。公司在谷歌云和AWS上運(yùn)行應(yīng)用程序,以免被任何供應(yīng)商或技術(shù)鎖定。
云計(jì)算:更多選擇 更多可能
公有云供應(yīng)商已經(jīng)為了滿足大數(shù)據(jù)需求,已經(jīng)擴(kuò)展了數(shù)據(jù)管理能力,不止包含關(guān)系型數(shù)據(jù)庫(kù)。例如,亞馬遜近幾年拓寬了AWS云選項(xiàng),包含了很多新興技術(shù),比如NoSQL數(shù)據(jù)庫(kù)DynamoDB、Hadoop部署ElasticMapReduce和ElastiCache內(nèi)存緩存服務(wù)、Redshift數(shù)據(jù)倉(cāng)庫(kù)和Kinesis流數(shù)據(jù)系統(tǒng)。
美國(guó)咨詢公司Cloud Technology Partners高級(jí)副總裁DavidLinthicum表示:“AWS和其他云供應(yīng)商也創(chuàng)建了相當(dāng)成熟的服務(wù)。一些可用的數(shù)據(jù)管理云平臺(tái)已經(jīng)發(fā)展到第五代第六代了。”
[page]
對(duì)于擁有強(qiáng)大的內(nèi)部處理能力的大公司來(lái)說(shuō),給大數(shù)據(jù)管理池增加云基礎(chǔ)的系統(tǒng)并不是必須的。美國(guó)云服務(wù)咨詢公司Nimbo的首席基礎(chǔ)架構(gòu)師Aaron Ebertowski表示:“為什么要企業(yè)定購(gòu)它們已經(jīng)有了的東西呢?企業(yè)已經(jīng)在存儲(chǔ)架構(gòu)投了成百上千美元,不會(huì)輕易舍棄的。”
業(yè)績(jī)要求也是公有云不受大數(shù)據(jù)用戶青睞的原因之一。加拿大海洋網(wǎng)絡(luò)(ONC)是一家非營(yíng)利性機(jī)構(gòu),該機(jī)構(gòu)管理著英屬哥倫比亞的一對(duì)海洋氣象臺(tái),計(jì)劃建立一個(gè)公司內(nèi)部私有云,為使用海洋傳感器提供數(shù)據(jù)的應(yīng)用模擬地震和海嘯創(chuàng)造條件。
目標(biāo)在于更加準(zhǔn)確地預(yù)測(cè)可能發(fā)生的自然災(zāi)害帶來(lái)的后果,為政府當(dāng)局采取預(yù)防措施緩解自然災(zāi)害給人們帶來(lái)的影響,Benoit Pirenne這樣說(shuō)道,他是ONC的數(shù)字基礎(chǔ)設(shè)施主管。
需求——充足的大數(shù)據(jù)力量
該機(jī)構(gòu)位于維多利亞大學(xué),去年春天得到了一項(xiàng)三年項(xiàng)目的批準(zhǔn)和資金支持。計(jì)劃進(jìn)行的分析工作包括收集傳感器的多次測(cè)定結(jié)果,運(yùn)行預(yù)測(cè)模型以得出可能發(fā)生的所有情況集。但是完成這項(xiàng)工作需要大量數(shù)據(jù)和強(qiáng)大的計(jì)算能力,Pirenne說(shuō)道。
“要計(jì)算現(xiàn)實(shí)狀況中的“模擬”幾乎是不可能完成的任務(wù),就算在非常高級(jí)的平行云系統(tǒng)中也不行。”他說(shuō)。因此,ONC正在與IBM合作構(gòu)建一個(gè)內(nèi)部云加過(guò)來(lái)處理流程和分析工作。
新興的管理服務(wù)供應(yīng)商——例如Altiscale, BitYota, Qubole, Treasure Data和Rackspace'sObjectRocket附屬公司等——稱他們通過(guò)以低于云平臺(tái)供應(yīng)商的價(jià)格接管部署和管理任務(wù),能夠?yàn)橛脩羝髽I(yè)將大數(shù)據(jù)云裝置做的更方便、更劃算。
美國(guó)的Sellpoints公司是一個(gè)線上營(yíng)銷和分析服務(wù)供應(yīng)商,使用Hadoop和Spark的流程工具迅速構(gòu)建查詢表格,查詢數(shù)據(jù)量達(dá)到TB用戶網(wǎng)頁(yè)活躍度數(shù)據(jù),BennyBlum如此說(shuō),他是Sellpoint公司業(yè)績(jī)營(yíng)銷和分析的副總裁。
Hadoop實(shí)用工具
Blum的公司首先將其自身的Hadoop系統(tǒng)應(yīng)用到了亞馬遜彈性計(jì)算云(或EC2)平臺(tái)上。但是現(xiàn)在該公司已經(jīng)換成了Altiscal的Hadoop作為服務(wù)供應(yīng)。這一服務(wù)也在亞馬遜云上運(yùn)行,但是Blum表示將Hadoop的構(gòu)造和管理下線為Sellpoints帶來(lái)了紅利。“Altiscale為我們管理了基礎(chǔ)設(shè)施,這樣我們就不必為維護(hù)集群而付運(yùn)營(yíng)費(fèi)了。”
但是至少迄今為止,該類服務(wù)的用戶基本都是這些新興企業(yè)自身。大多是服務(wù)供應(yīng)商的顧客基礎(chǔ)還維持在一位數(shù)或兩位數(shù)。
RickSherman是AthenaIT解決方案這一美國(guó)咨詢公司的創(chuàng)始人,他認(rèn)為有理由相信基于云端的Hadoop服務(wù)尤其能夠在更廣闊的基礎(chǔ)上運(yùn)行。“人們?cè)谑褂米越o自足的Hadoop時(shí)遇到了一堵墻,”他說(shuō)。“這在時(shí)間和技巧上都需要付出很多。我認(rèn)為最終Hadoop作為服務(wù)會(huì)比公司內(nèi)部Hadoop更具吸引力。”
然而有些企業(yè)還完全沒有準(zhǔn)備好接受公有云中的Hadoop,而且近期內(nèi)也不會(huì)準(zhǔn)備好接受。這就是Ayad Shammout所面臨的問(wèn)題,他是美國(guó)Beth Israel Deaconess醫(yī)學(xué)中心(BIDMC)的數(shù)據(jù)平臺(tái)和商務(wù)智能主管。去年他還是位獨(dú)立咨詢師的時(shí)候,就與另一位咨詢師合作,為BIDMC做了一個(gè)大數(shù)據(jù)和云計(jì)算定義證明項(xiàng)目。為了降低SQL服務(wù)器數(shù)據(jù)庫(kù)上的存儲(chǔ)量和流程需求,他們使用了Azure HDInsight,Microsoft的基于云端的Hadoop發(fā)行,用以卸載應(yīng)用審計(jì)日志的存檔文件,這些日志用于微軟的Azure云管理報(bào)告。
Shammout表示示范項(xiàng)目展示出了在云端云頂Hadoop應(yīng)用的潛力。他還認(rèn)為像BIDMC這種衛(wèi)生保健型供應(yīng)商最終能夠?qū)⑵鋵?shí)現(xiàn)。但是在未來(lái)幾年之內(nèi),美國(guó)的聯(lián)邦健康保險(xiǎn)可移植性法案和問(wèn)責(zé)制法案還阻礙著生產(chǎn)的展開。
“如果三四年前我跟你談?wù)撛贫耍視?huì)說(shuō)‘這不會(huì)發(fā)生的。’”Shammout說(shuō)道。“現(xiàn)在我認(rèn)為云端會(huì)在某些部門實(shí)現(xiàn)應(yīng)用。我的期望是再過(guò)三四年,云數(shù)據(jù)隱私就不成問(wèn)題了。”