ODPS降低大數(shù)據(jù)應(yīng)用門檻

責(zé)任編輯:editor004

2014-08-01 14:23:02

摘自:賽迪網(wǎng)-中國(guó)計(jì)算機(jī)報(bào)

阿里云計(jì)算的ODPS從內(nèi)部使用的工具變成了面向社會(huì)開放的大數(shù)據(jù)平臺(tái),開創(chuàng)了國(guó)內(nèi)大數(shù)據(jù)公共服務(wù)的先河,降低了大數(shù)據(jù)在資金、人才和應(yīng)用方面的門檻。通過(guò)阿里云的“御膳房”數(shù)據(jù)市場(chǎng),數(shù)據(jù)消費(fèi)者與數(shù)據(jù)提供者可以安全地交易、使用海量數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)價(jià)值。

阿里云計(jì)算的ODPS從內(nèi)部使用的工具變成了面向社會(huì)開放的大數(shù)據(jù)平臺(tái),開創(chuàng)了國(guó)內(nèi)大數(shù)據(jù)公共服務(wù)的先河,降低了大數(shù)據(jù)在資金、人才和應(yīng)用方面的門檻。

小型企業(yè)只要花費(fèi)幾百元就能進(jìn)行海量數(shù)據(jù)分析,這是真的嗎?阿里云計(jì)算的大數(shù)據(jù)平臺(tái)ODPS可以讓你夢(mèng)想成真。

今年舉行的阿里巴巴大數(shù)據(jù)競(jìng)賽,首次將ODPS和阿里的天池平臺(tái)開放給參賽的大學(xué)生,這可以看成是ODPS商用的前奏。2014年1月,阿里云計(jì)算的ODPS服務(wù)開始公測(cè)。7月,ODSP正式開始商用。阿里云計(jì)算總裁王文彬認(rèn)為,此舉標(biāo)志著中國(guó)的大數(shù)據(jù)已經(jīng)進(jìn)入公共服務(wù)的新時(shí)代。

大數(shù)據(jù)平臺(tái)即開即用

云計(jì)算出現(xiàn)后,人們可以像使用水、電一樣自由地取用IT資源。阿里云計(jì)算的ODPS就像是大數(shù)據(jù)時(shí)代的生產(chǎn)流水線,“水龍頭”里流出的是用戶想要的各類數(shù)據(jù)分析結(jié)果。阿里云計(jì)算公布的數(shù)據(jù)顯示,ODPS可在6小時(shí)內(nèi)處理100PB數(shù)據(jù),這個(gè)數(shù)據(jù)量相當(dāng)于1億部高清電影。王文彬表示,目前全球范圍內(nèi)能夠掌握這種技術(shù)能力的公司屈指可數(shù),阿里云計(jì)算就是其中一家。

人們使用傳統(tǒng)解決方案處理大數(shù)據(jù),通常要耗巨資自建數(shù)據(jù)中心,還要請(qǐng)專業(yè)的技術(shù)人員負(fù)責(zé)系統(tǒng)維護(hù)和運(yùn)作,而一旦數(shù)據(jù)總量超過(guò)一定界限,比如100TB,那么數(shù)據(jù)處理就有可能遇到瓶頸。開源的Hadoop雖然提升了大數(shù)據(jù)處理的效率、降低了成本,但用戶自建一個(gè)Hadoop集群花費(fèi)不菲,而且還需要專業(yè)的技術(shù)人才。王文彬認(rèn)為,ODPS對(duì)于大數(shù)據(jù)的最大貢獻(xiàn)在于,它以公共服務(wù)的方式讓人們以更低的成本使用大數(shù)據(jù)平臺(tái)和工具,從而大大降低了大數(shù)據(jù)的應(yīng)用門檻。從公開資料看,ODPS目前采用的是按使用量收費(fèi)的模式,定價(jià)是每GB 0.3元,即開即用,一個(gè)月內(nèi)免費(fèi)。根據(jù)大部分公司的數(shù)據(jù)使用量來(lái)測(cè)算,一般用戶平均每月只需花費(fèi)數(shù)百元就可以享受到ODPS的服務(wù)。

ODPS在對(duì)外商用之前,本來(lái)是阿里巴巴集團(tuán)內(nèi)部30多家公司自用的一個(gè)大數(shù)據(jù)平臺(tái)。王文彬介紹說(shuō),阿里小貸最先將ODPS應(yīng)用于商業(yè)領(lǐng)域,目前已有超過(guò)36萬(wàn)人從阿里小貸借款,最小貸款額僅為1元,并可實(shí)現(xiàn)3分鐘申請(qǐng)、1秒放款、零人工干預(yù)。如果沒(méi)有ODPS大數(shù)據(jù)平臺(tái),阿里小貸若想實(shí)現(xiàn)上述目標(biāo)幾乎是不可能的,因?yàn)榘⒗镄≠J每天處理的數(shù)據(jù)達(dá)30PB,包含店鋪等級(jí)、收藏、評(píng)價(jià)等800億個(gè)信息項(xiàng),涉及100多個(gè)數(shù)據(jù)模型。

在阿里小貸成功地作了一次“小白鼠”后,阿里巴巴集團(tuán)內(nèi)部的多個(gè)公司紛紛開始嘗試ODPS,其中包括淘寶、支付寶等阿里巴巴最核心的數(shù)據(jù)業(yè)務(wù)。在ODPS趨于成熟后,阿里云計(jì)算終于下定決心將自己的大數(shù)據(jù)處理能力對(duì)外開放,以大幅降低社會(huì)創(chuàng)新成本。除了阿里巴巴自身以外,華大基因、國(guó)內(nèi)的一些藥監(jiān)部門等也在ODPS大數(shù)據(jù)平臺(tái)上進(jìn)行了測(cè)試。

目前,在國(guó)外,只有像Google、亞馬遜等少數(shù)企業(yè)可以提供類似ODPS這樣的公共大數(shù)據(jù)服務(wù)。在國(guó)內(nèi),ODPS公共大數(shù)據(jù)服務(wù)還屬于開先河之作。王文彬也表示,阿里云計(jì)算有信心讓ODPS變得比Google BigQuery更加強(qiáng)大,不僅支持更豐富的SQL語(yǔ)法,還將提供MapReduce編程模型和機(jī)器學(xué)習(xí)建模能力,服務(wù)更多的應(yīng)用場(chǎng)景。

云與大數(shù)據(jù)相輔相成

回顧ODPS的發(fā)展,從2010到現(xiàn)在的5年時(shí)間里,阿里云計(jì)算的工程師們?yōu)镺DPS貢獻(xiàn)了250萬(wàn)行代碼,ODPS經(jīng)過(guò)不斷打磨和歷練,也從一個(gè)企業(yè)內(nèi)部使用的大數(shù)據(jù)工具變成了可以服務(wù)于大眾的成熟的大數(shù)據(jù)平臺(tái)。

一開始,ODSP只是作為阿里云計(jì)算“飛天”平臺(tái)的一個(gè)重要組成模塊出現(xiàn)。“飛天”是阿里云計(jì)算于2009年開始研發(fā)的一款分布式系統(tǒng)軟件,主要提供分布式存儲(chǔ)和分布式計(jì)算的調(diào)度和編程框架。ODPS最開始被用于阿里巴巴集團(tuán)內(nèi)部的海量結(jié)構(gòu)化數(shù)據(jù)的處理和分析。

2010年春節(jié)期間,ODPS的前身Sql Engine第一版正式上線,首個(gè)應(yīng)用是支持阿里云金融的信用貸款和訂單貸款業(yè)務(wù),運(yùn)行在30臺(tái)機(jī)器的“飛天”集群系統(tǒng)之上。2012年第一季度,“冰火鳥”項(xiàng)目正式啟動(dòng),研發(fā)團(tuán)隊(duì)在Data Engine和Moye之間做技術(shù)選擇,并最終決定使用Moye作為ODPS產(chǎn)品的核心引擎。之后,歷經(jīng)8個(gè)月的開發(fā),“冰火鳥”項(xiàng)目一期結(jié)束,阿里小貸和淘寶的數(shù)據(jù)倉(cāng)庫(kù)業(yè)務(wù)正式遷移到ODPS平臺(tái)上,這標(biāo)志著ODPS項(xiàng)目正式成形。

隨著技術(shù)的不斷成熟,目前,ODPS已經(jīng)運(yùn)行在由5000臺(tái)服務(wù)器組成的集群系統(tǒng)之上,這種規(guī)模在業(yè)內(nèi)也是少有的。

王文彬歸納了幾條ODPS的產(chǎn)品優(yōu)勢(shì)。

第一,高速的海量運(yùn)算唾手可得。用戶不必再關(guān)心由于數(shù)據(jù)持續(xù)增加帶來(lái)的存儲(chǔ)規(guī)模、計(jì)算延遲等方面的挑戰(zhàn),ODPS可以根據(jù)用戶的數(shù)據(jù)規(guī)模自動(dòng)擴(kuò)展集群的存儲(chǔ)和計(jì)算能力,讓用戶專心于數(shù)據(jù)分析和挖掘,從而最大程度發(fā)揮數(shù)據(jù)的價(jià)值。

第二,ODPS服務(wù)即開即用。用戶不必自己操心集群的配置和運(yùn)維,僅需簡(jiǎn)單的幾步操作就可以在ODPS中上傳數(shù)據(jù)、分析數(shù)據(jù)并快速得到分析結(jié)果。

第三,數(shù)據(jù)存儲(chǔ)安全有保障。ODPS采用三重備份、讀寫請(qǐng)求鑒權(quán)、應(yīng)用沙箱、系統(tǒng)沙箱等多層次的數(shù)據(jù)存儲(chǔ)和訪問(wèn)安全機(jī)制,可以保證用戶數(shù)據(jù)不丟失、不泄露、不被竊取。

第四,實(shí)現(xiàn)多用戶協(xié)作。通過(guò)配置不同的數(shù)據(jù)訪問(wèn)策略,企業(yè)用戶的多名數(shù)據(jù)分析師可以協(xié)同工作,并且每人僅能訪問(wèn)自己權(quán)限許可范圍內(nèi)的數(shù)據(jù),在保障數(shù)據(jù)安全的前提下提升工作效率。

第五,按使用量付費(fèi)。ODPS可以根據(jù)用戶實(shí)際使用的存儲(chǔ)量和計(jì)算消耗收費(fèi),從而有效地降低數(shù)據(jù)使用成本。

云計(jì)算與大數(shù)據(jù)就像是一個(gè)硬幣的正反兩面。云計(jì)算實(shí)現(xiàn)了IT架構(gòu)的變革,而大數(shù)據(jù)則改變了數(shù)據(jù)的使用方式,充分展現(xiàn)并挖掘出了數(shù)據(jù)的價(jià)值。“以前,IT可以簡(jiǎn)單地理解為是硬件加上軟件。但是在云計(jì)算和大數(shù)據(jù)時(shí)代,IT就是云計(jì)算加數(shù)據(jù)。這對(duì)于IT來(lái)說(shuō)是一次翻天覆地的變化。如今,今天再也不用采購(gòu)IT硬件和軟件,只要采用云服務(wù)即可。”王文彬告訴記者,“ODPS其實(shí)也是一種云服務(wù),它將改變整個(gè)IT的使用模式、使用周期。ODPS讓大數(shù)據(jù)可以以一種服務(wù)的方式呈現(xiàn)給大眾。”

阿里云目前在北京、杭州、青島、香港等多地?fù)碛卸鄠€(gè)數(shù)據(jù)中心節(jié)點(diǎn),這為大數(shù)據(jù)公共服務(wù)提供了有力支撐。阿里云目前直接或間接服務(wù)的客戶將近一百萬(wàn)個(gè)。“大數(shù)據(jù)公共服務(wù)是大數(shù)據(jù)發(fā)展歷程中的一個(gè)里程碑。無(wú)論企業(yè)規(guī)模大小,都有數(shù)據(jù)處理、分析和挖掘的需求,這是業(yè)務(wù)發(fā)展的必然選擇。阿里巴巴自身已經(jīng)驗(yàn)證過(guò)ODPS這個(gè)大數(shù)據(jù)平臺(tái),并且可以滿足企業(yè)用戶對(duì)大數(shù)據(jù)公共服務(wù)水平的要求。”王文彬強(qiáng)調(diào)說(shuō),“我們希望將大數(shù)據(jù)處理平民化,讓大數(shù)據(jù)變成人人都可以使用的工具,而不僅僅是大公司的專利。”

ODSP需要一個(gè)生態(tài)系統(tǒng)

ODPS雖然以降低傳統(tǒng)大數(shù)據(jù)處理的資金、人才門檻為己任,但是ODPS本身其實(shí)也有一定門檻。王文彬解釋說(shuō):“ ODPS并不是每個(gè)人都可以使用的。就像是編程一樣,ODPS只是一個(gè)計(jì)算平臺(tái),用戶要通過(guò)它上面疊加的多種工具才能實(shí)現(xiàn)大數(shù)據(jù)的處理。我們之所以開放ODPS平臺(tái),也是希望能有更多的合作伙伴可以在ODPS平臺(tái)上進(jìn)行二次開發(fā),為用戶使用大數(shù)據(jù)提供便利。ODPS的成功要依靠一個(gè)龐大的生態(tài)圈。”

ODPS剛剛開始商業(yè)化,雖然現(xiàn)在已經(jīng)有一些合作伙伴在做ODPS代運(yùn)營(yíng)的業(yè)務(wù),并且開始在ODPS平臺(tái)之上開放分析、報(bào)表工具等。但是要建設(shè)一個(gè)具有一定規(guī)模的生態(tài)體系還要花費(fèi)一段時(shí)間。王文彬表示,阿里云計(jì)算準(zhǔn)備用幾個(gè)月的時(shí)間把這個(gè)生態(tài)體系的架構(gòu)搭建好,吸引更多的合作伙伴加入進(jìn)來(lái)。

大數(shù)據(jù)有很多分類方法,其中一種分類方式是按照大數(shù)據(jù)的屬性將大數(shù)據(jù)分成商業(yè)大數(shù)據(jù)、互聯(lián)網(wǎng)大數(shù)據(jù)、機(jī)器大數(shù)據(jù)等。ODPS是不是能夠處理所有類型的數(shù)據(jù)呢?王文彬回應(yīng)說(shuō):“作為一個(gè)在線大數(shù)據(jù)平臺(tái),ODPS更擅長(zhǎng)處理結(jié)構(gòu)化的數(shù)據(jù)或半結(jié)構(gòu)化的數(shù)據(jù),但不能處理非結(jié)構(gòu)化的數(shù)據(jù)。不過(guò),未來(lái),我們會(huì)在非結(jié)構(gòu)化數(shù)據(jù)的處理方面做更深層次的探索,這主要取決于用戶的需求。”

目前,阿里集團(tuán)大部分?jǐn)?shù)據(jù)業(yè)務(wù)都運(yùn)行在ODPS之上,包括阿里小貸、數(shù)據(jù)魔方、阿里媽媽廣告聯(lián)盟、廣告搜索、點(diǎn)擊預(yù)測(cè)模型訓(xùn)練、支付寶的所有業(yè)務(wù)、淘寶指數(shù)、阿里無(wú)線、高德、中信21cn等?;贠DPS,阿里云計(jì)算為第三方軟件服務(wù)商和品牌商提供了大數(shù)據(jù)計(jì)算、挖掘、存儲(chǔ)的云環(huán)境開發(fā)平臺(tái)。通過(guò)阿里云的“御膳房”數(shù)據(jù)市場(chǎng),數(shù)據(jù)消費(fèi)者與數(shù)據(jù)提供者可以安全地交易、使用海量數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)價(jià)值。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)