大數(shù)據(jù)時代CIO們在就如何收集、存儲、分析和展示大數(shù)據(jù)開展工作的同時,還被賦予了應(yīng)對更加困難的挑戰(zhàn)——運用數(shù)據(jù)作為驅(qū)動業(yè)務(wù)決策的手段的重任。IT組織可以如何利用大數(shù)據(jù)?經(jīng)過一年左右與專家和CIO們的試探后,我開始認(rèn)為這一努力需要CIO們進入一個以往很少有人觸及的領(lǐng)域:電影。
三維方法:數(shù)據(jù)展示的“未來之路”
最近湯姆·達文波特在即將出版的關(guān)于分析的書中清晰地闡述了CIO和商業(yè)智能(BI)組織的工作不是簡單的展示數(shù)據(jù),而是要以一種能夠影響業(yè)務(wù)決策的方式進行展示。在他的關(guān)于展示數(shù)據(jù)最佳方式問卷調(diào)查中,達文波特印象最深的一組把“一個非常簡單的財務(wù)報告應(yīng)用”做成了一個視頻。這很可能是未來之路,他說,如果你看看我們是如何說服做其他事情,購買產(chǎn)品,自娛自樂——想想最近大家在YouTube上觀看的所有聰明貓的視頻——除非我們愿意通過視頻來溝通分析的結(jié)果,否則它不可能每個都保持長久。
這個案例對于展示大數(shù)據(jù)技術(shù)特別有說服力。一個簡單的圖可以用一個事情繪制另一個——就像我從代數(shù)課上學(xué)到的。添加顏色也許就能在一個圖中獲得三個變量。但是大數(shù)據(jù),正如從PayPal到金融街的首席科學(xué)家們所說,可能包含上百種變量,并且這些變量正隨著時間和空間而改變。萬能的貓視頻!什么樣的數(shù)據(jù)展示才能弄明白這個。
當(dāng)然,如果你已經(jīng)知道自己在尋找什么,感謝你那有準(zhǔn)備的頭腦,除了留下與少數(shù)變量相關(guān)的信息,你只是過濾掉了其他的所有信息。但是如果你不知道自己在尋找什么,如果你已經(jīng)有了上PB的數(shù)據(jù),你希望從中能發(fā)現(xiàn)新的關(guān)系而不是簡單的為舊觀點提供支撐或反駁的證據(jù),那會怎么樣?如果你想看到不帶偏見處理數(shù)據(jù)的方式——正如我所知道的,那真是大數(shù)據(jù)分析的最高目標(biāo)(the holy grail)——除了逐字逐句的看,根本沒有什么其他選擇。但是,怎樣做呢?
我想,這就是為什么要有電影,為什么財務(wù)業(yè)績通過視頻可以給象達文波特這樣老練的分析家留下如此深刻的印象。電影呈現(xiàn)出三維空間;它讓我們看見時間的流逝。顏色、紋理甚至聲音的應(yīng)用為我們描繪出了更多的變數(shù)。我們所熟知的世界就是三維的,有聲電影會被人們當(dāng)作真實的經(jīng)歷。
現(xiàn)在的CIO們必須讓大數(shù)據(jù)看起來像那個真實的世界,是否所有可用來表現(xiàn)工具都已存在了?當(dāng)然不是。達文波特的觀點是他們還相當(dāng)不成熟,但是每個我們見到的計算機制作出的動畫都向我們展示了一條前進的道路。詹姆斯·卡梅隆在《阿凡達》中使用的軟件工具,象Autodesk Maya和Zbrush,都可以找到一種方式進入到CIO的組件中。燈光、攝像、開始!拿我來說,我就期待在電影中的大數(shù)據(jù)。據(jù)我推測企業(yè)也是一樣在期待。正如另一位哲人所說,觀察能讓你學(xué)會很多。
六家創(chuàng)業(yè)公司數(shù)據(jù)可視化分析
1.Ayasdi
Ayasdi來自印第安語,是“尋找”的意思。斯坦福大學(xué)的Gurjeet Singh,Gunnar Carlsson和Harlan Sexton一直在致力于將拓?fù)鋵W(xué)的研究方法應(yīng)用于數(shù)據(jù)分析。在2008年,他們聯(lián)合成立了Ayasdi公司。Ayasdi成立以后,就獲得了DARPA(美國國防部高級研究項目組)350萬美元的資助。
Ayasdi的底層使用的是HBase數(shù)據(jù)存儲,然后再利用拓?fù)鋽?shù)據(jù)分析技術(shù)和上百種機器學(xué)習(xí)的算法來處理復(fù)雜的數(shù)據(jù)集,最終確定數(shù)據(jù)節(jié)點之間的相似度。而對終端用戶而言,這看起來更像是一個數(shù)據(jù)集的拓?fù)鋱D,只是強調(diào)了集群中有關(guān)聯(lián)的數(shù)據(jù)點。
Ayasdi的技術(shù)有一個重要的特點,它不像別的系統(tǒng)需要類似搜索查詢式語句,Ayasdi可以自動從數(shù)據(jù)中發(fā)現(xiàn)隱藏的模式。Ayasdi的一個應(yīng)用就是在醫(yī)學(xué)研究領(lǐng)域,Mount Sinai醫(yī)學(xué)院基因與多尺度生物學(xué)系的主任Eric Schadt就帶領(lǐng)一個團隊,利用Ayasdi的技術(shù)進行一些疾病的遺傳傾向的研究,而且利用Ayasdi的數(shù)據(jù)分析技術(shù),幫助發(fā)現(xiàn)了乳腺癌的14個變種。
2.BeyondCORE
實際上BeyondCore運作的基本前提和Ayasdi是相同的——只是展示給用戶顯著相關(guān)的聯(lián)系,而無需考慮這個結(jié)果是如何發(fā)現(xiàn)的——雖然BeyondCore使用的是標(biāo)準(zhǔn)化圖表,但是事實上還提供了另一種選擇:在發(fā)現(xiàn)軟件發(fā)現(xiàn)關(guān)聯(lián)性結(jié)果時,會讓化身(見圖片)通知用戶。
3.ClearStory
ClearStory擁有一個獨一無二的產(chǎn)品,即使該產(chǎn)品的很多細(xì)節(jié)并沒有公布。也許只有在產(chǎn)品正式發(fā)布之后,我們才能“一睹真容”。ClearStory將與存儲在數(shù)據(jù)庫、網(wǎng)絡(luò)和其他來源的數(shù)據(jù)連接,在數(shù)據(jù)源變化時進行動態(tài)的更新,并加入虛擬的數(shù)據(jù)挖掘組件,使用戶分析數(shù)據(jù)并理解信息。在今年3月份,ClearStory獲得了來自谷歌風(fēng)投、安德里森·霍洛維茨、KhoslaVentures等多家風(fēng)投的青睞,融資金額不詳。
4、Datahero
Datahero是由來自AsterData的大數(shù)據(jù)分析業(yè)務(wù)骨干ChrisNeumann、寶馬的高級工程師JeffZabel聯(lián)合創(chuàng)立,該公司尚在起步階段就獲得了100萬美元的融資。他們打著“你的數(shù)據(jù)你做主”的口號,試圖彌合大數(shù)據(jù)與普通用戶之間的鴻溝,不僅幫助用戶分析密切相關(guān)的數(shù)據(jù),而且通過可視化的形式,讓用戶更好地理解這些數(shù)據(jù)。
據(jù)外媒報道,Datahero是基于瀏覽器的一個平臺,數(shù)據(jù)的輸出、整理以及解釋都會在一個單獨的窗口完成,而不是通常意義上的借助不同的應(yīng)用。通過瀏覽器,用戶可以將多種網(wǎng)絡(luò)服務(wù)的信息輸入到Datahero,也可以從公共的數(shù)據(jù)庫下載報告,還可以直接在本地把電子表格及文件上傳到Datahero。Datahero會根據(jù)它的算法自動為這些信息歸類,并給他們加上標(biāo)簽。
5.Platfora
Platfora在Hadpoop的基礎(chǔ)上進行數(shù)據(jù)的操作,并為用戶提供一個簡單易用的操作平臺。因為Hadpoop有很多不同的發(fā)行版,所以Platfora的重點之一就是確保它能在所有的發(fā)行版上運行,這樣大大降低了Hadpoop的使用門檻,讓更多的人能夠體驗Hadpoop的技術(shù)優(yōu)勢,實現(xiàn)真正意義上的“平民化”。
6.Zoomdata
初創(chuàng)公司ZoomData是為數(shù)不多的支持移動設(shè)備的數(shù)據(jù)分析公司,它們的數(shù)據(jù)可視化系統(tǒng)能夠?qū)嵤┑拇髷?shù)據(jù)流轉(zhuǎn)化為觸屏友好的、藝術(shù)感十足的三維數(shù)據(jù)。蘋果iPad和Android平板電腦用戶可以用手指縮放數(shù)據(jù)可視化界面,隨著界面縮放的級別不同,數(shù)據(jù)將實時進行更新。ZoomData的數(shù)據(jù)可視化技術(shù)支持多種數(shù)據(jù)源,包括社交媒體、企業(yè)應(yīng)用系統(tǒng)以及HadoopHDFS數(shù)據(jù)。