Microsoft Azure之類的云正努力將部署簡(jiǎn)化,但這和端對(duì)端大數(shù)據(jù)分析應(yīng)用程序的實(shí)現(xiàn)以及將其在云上運(yùn)行一樣困難,因?yàn)樗窃跀?shù)據(jù)中心。一個(gè)來(lái)自Cask Data公司的應(yīng)用程序數(shù)據(jù)框架有意對(duì)這些實(shí)現(xiàn)進(jìn)行加速,而Azure HDInisight便是其目標(biāo)之一。
隨著大數(shù)據(jù)分析變成大數(shù)據(jù)工作流和應(yīng)用程序,該框架便是試圖要解決由此引起的各種問題。
“從大數(shù)據(jù)管道的角度來(lái)看,很多是去做一些諸如點(diǎn)擊流分析之類的的事情??蛻粝胍氖悄茏屵@些應(yīng)用程序的構(gòu)建更快,” Microsoft的首席項(xiàng)目經(jīng)理Pranav Rastogi解釋道。
他說,有了Cask Data Application Platform(Cask數(shù)據(jù)應(yīng)用程序平臺(tái)CDAP),用戶就可以創(chuàng)建一個(gè)端對(duì)端的大數(shù)據(jù)管道,而且用多種大數(shù)據(jù)組件創(chuàng)建這些工作流是當(dāng)今大數(shù)據(jù)所面臨的核心問題。
Cask的CTONitin Motgi表示,該公司的軟件有助于將數(shù)據(jù)流分解為邏輯處理分片在MapReduce或Spark中運(yùn)行,即便對(duì)于最好的Java開發(fā)人員來(lái)說,這也是一項(xiàng)極為費(fèi)時(shí)的工作。
“人們正面臨著技能的挑戰(zhàn),尤其是低級(jí)API,”他說。Cask環(huán)境試圖通過一個(gè)面向模型的接口將開發(fā)推向一個(gè)更高的抽象層級(jí)。他說,與此同時(shí),CDAP使用底層容器架構(gòu)。它將數(shù)據(jù),應(yīng)用程序和程序組織起來(lái)在Hadoop上運(yùn)行。
微軟和Cask的技術(shù)人員在最近的一個(gè)直播節(jié)目中對(duì)CDAP和其在對(duì)像Apache Hadoop和Apache Spark這樣的大數(shù)據(jù)關(guān)鍵平臺(tái)上部署進(jìn)行加速所發(fā)揮的作用進(jìn)行了探討。
最近在紐約的Strata + Hadoop 大會(huì)上CDAP已經(jīng)獲得了Azure的認(rèn)證而且現(xiàn)在可以在Azure HDInsight上運(yùn)行,它是Microsoft的Hadoop和Spark的支柱。
萃取價(jià)值Forrester Research的分析師Mike Gualtieri說,像CDAP和Azure HDInsight的組合可以解決那些阻止大數(shù)據(jù)分析更廣泛使用的問題。他說數(shù)據(jù)和分析技術(shù)的應(yīng)用已經(jīng)變慢,這是因?yàn)閷?duì)于業(yè)務(wù)來(lái)說它很難提取價(jià)值。他堅(jiān)持認(rèn)為只有當(dāng)大數(shù)據(jù)技術(shù)變成實(shí)際應(yīng)用程序的一部分時(shí),才能成為業(yè)務(wù)催化劑。
“人們將Hadoop看做是一個(gè)數(shù)據(jù)湖,而Spark是一個(gè)數(shù)據(jù)分析系統(tǒng),但工作應(yīng)用程序則是關(guān)鍵所在,”他說,“Cask的所作所為就是它讓你根據(jù)應(yīng)用程序進(jìn)行工作。”應(yīng)該將該系統(tǒng)更多地看做是一個(gè)應(yīng)用程序平臺(tái),而不是一個(gè)分析平臺(tái)。
他把該影響與諸如WebLogic之類的早期應(yīng)用程序服務(wù)器相比,在1990年代早期WebLogic將不同的中間件集成在一起來(lái)創(chuàng)建應(yīng)用程序。“你現(xiàn)在所擁有的是一個(gè)可以作為分析系統(tǒng)的應(yīng)用程序集群,而不是一個(gè)應(yīng)用程序服務(wù)器。”
WebLogic應(yīng)用程序服務(wù)器發(fā)展成了著名的開發(fā)中心,而且現(xiàn)在歸Oracle所有,而CDAP為構(gòu)建應(yīng)用程序提供了一個(gè)有用的抽象層級(jí)。
超越HadoopMicrosoft一直在穩(wěn)步努力為在Azrue云上的Hadoop和Spark大數(shù)據(jù)管道開發(fā)和管理創(chuàng)建其自己的工具。但該公司已經(jīng)表現(xiàn)出獲得外部幫助的興趣,這從與Cask的交易中可見一斑。
實(shí)際上,Microsoft的HDInsight工作是與Hortonworks一起完成的,Hortonworks是一個(gè)Hadoop的頂級(jí)分銷商,它是Microsoft常年投資的受益者。同時(shí),今年早些時(shí)候,該大數(shù)據(jù)分析平臺(tái)制造商發(fā)布了一個(gè)其Datameer Cloud的版本,而Datameer Cloud是運(yùn)行在Microsoft的Azure HDInisght上的。
就其本身而言,Microsoft在云上將Azure Data Factory作為一項(xiàng)大數(shù)據(jù)集成服務(wù)加以提供。Microsoft的Rastogi承認(rèn)“在高層級(jí)上,Data Factory和CDAP正在解決同樣的問題。”然而在不同的場(chǎng)景下,各自也會(huì)比對(duì)方擁有更多的資源,他說。
在某些路線圖一致性上還有前提工作要做,而通過這些工作就能看到Azure Data Factory作為CDAP管道的一部分來(lái)使用,Cask的Motgi說。顯然,還有很多構(gòu)建的事要做。在今年晚些時(shí)候?qū)l(fā)布一個(gè)版本CDAP 4,它將包含諸如針對(duì)Azure Storage的Simple Storage Service和針對(duì)HDInsight HBase的SQL Server等預(yù)制管道,而該版本的目標(biāo)就是對(duì)大數(shù)據(jù)應(yīng)用程序部署大力加速。
獲得Azure上的更多數(shù)據(jù)是Microsoft的一個(gè)目標(biāo),而CDAP認(rèn)證對(duì)此頗有幫助。其希望在于當(dāng)數(shù)據(jù)上線后,就可以將熟悉的Microsoft分析工具用于這些數(shù)據(jù)。
Forrester的Gualtieri將分析標(biāo)記為這樣一個(gè)領(lǐng)域,在該領(lǐng)域內(nèi)Microsoft Azure曾與Amazon Web Services競(jìng)爭(zhēng)激烈。而他指出Amazon在云方面整體上處于龍頭地位,在今年二季度完成的Forrester Wave關(guān)于大數(shù)據(jù)云服務(wù)的研究中,他指出和Amazon頗具競(jìng)爭(zhēng)力的Hadoop服務(wù)相比,Azure HDInsight的得分還有所領(lǐng)先。他說Azure HDInsight所具有的優(yōu)勢(shì)來(lái)源于Microsoft的分析工具。
他說,“你要尋求‘價(jià)值的增加。’Amazon的方法就是構(gòu)建基本功能,而Microsoft則是引入BI工具來(lái)解決該問題。這在他們已經(jīng)進(jìn)行的投資中就有所反映。”