在2014年10月紐約的Strata and Hadoop World會議上,大數(shù)據(jù)從業(yè)者和廠家們齊聚一堂以相互學(xué)習(xí)互通有無。今年會議上一個值得注意的方向是“偽大數(shù)據(jù)”產(chǎn)品的興起,“偽大數(shù)據(jù)”產(chǎn)品就是加上了“大數(shù)據(jù)”這個形容詞以博眼球的產(chǎn)品。
科技營銷緊跟正在上升的有力潮流來盈利,這是個長期公認(rèn)的做法。在互聯(lián)網(wǎng)熱潮(.com boom)時期,和互聯(lián)網(wǎng)一點兒關(guān)系沒有的公司都在名字里加上了“.com”。環(huán)保產(chǎn)品滿身綠色。云端產(chǎn)品都和“云”貼邊。現(xiàn)在又興起用大數(shù)據(jù)來貼金。
這些夸張的手段是否弊大于利呢?也許因為營銷中利用了“大數(shù)據(jù)”這個詞,人們能去接觸并了解一個不然他們不會去考慮的產(chǎn)品。但這個伎倆幾乎騙不了誰,并且會讓用偽大數(shù)據(jù)技術(shù)的用戶抓狂。
大數(shù)據(jù)分析平臺廠商Platfora引起了Luth Research調(diào)查大數(shù)據(jù)分析市場現(xiàn)狀的興趣。他們的調(diào)查問卷直接問回答者他們是否把小數(shù)據(jù)產(chǎn)品換了個包裝說成是大數(shù)據(jù)產(chǎn)品;55%回答了是。大約一半 的回答者稱他們不得不把大數(shù)據(jù)分成小份來分析,并且小數(shù)據(jù)產(chǎn)品用在大數(shù)據(jù)上是不太成功的。Luth Research分析結(jié)論是:“不好用的大數(shù)據(jù)分析工具影響士氣。對他們用的工具不滿意的回答者更傾向于用壓力大、令人沮喪、浪費時間這種詞來形容他們的 大數(shù)據(jù)分析體驗。”(更多Luth Research的細(xì)節(jié)請參見這個圖。)
“你總用那個詞(大數(shù)據(jù))。我不認(rèn)為它和你想的意思一樣。”
我的觀點是如果一個公司把它本質(zhì)不是大數(shù)據(jù)的產(chǎn)品定位成大數(shù)據(jù)產(chǎn)品那就是在自砸招牌。今年早些時候,我為DataRPM寫了些東西,DataRPM有非常好的產(chǎn)品,我在下面這些文章中寫過它們:“為何自動語義能夠解決商務(wù)智能面板危機”,“語義是如何把數(shù)據(jù)分析做得像Google搜索一樣的”。自從我認(rèn)識他們起,我就建議他們大數(shù)據(jù)不是描述他們的產(chǎn)品價值的正確用詞。但在最近的廣告上我看見DataRPM用“大數(shù)據(jù)公司”來描述他們自己。
DataRPM通過自然語言,自動創(chuàng)建面板及對數(shù)據(jù)進(jìn)行語義建模來解決頂層漏斗形商業(yè)智能問題(“為何頂層漏斗形商業(yè)智能會引領(lǐng)新潮流”)。 沒受過訓(xùn)練的用戶也可以嘗試通過用自然語言問問題在DataRPM上試水。根據(jù)問題會生成新的面板。通過增加更多的語言,這個面板可以被細(xì)化。這樣一來, 用戶可以找到他們并不知道的數(shù)據(jù)集。一般公司中,只有30%人接觸到商業(yè)智能,通過利用DataRPM這樣的產(chǎn)品,可以極大地提高這一比例。
但是這個和大數(shù)據(jù)有啥關(guān)系呢?也許勉強可以說DataRPM能從大數(shù)據(jù)庫中進(jìn)行查詢吧。但是通過表單也可以做呀。表單是大數(shù)據(jù)技術(shù)么?一摞紙是大數(shù)據(jù)技術(shù)么?我認(rèn)為DataRPM為了和大數(shù)據(jù)貼邊的做法反而掩蓋了它真正的價值。
Qlik和Tableau和大數(shù)據(jù)公司都有很多合作并且經(jīng)常被用來處理大數(shù)據(jù),但是他們的市場營銷都看重他們的核心價值即輔助數(shù)據(jù)的探索和發(fā)現(xiàn)過程。Looker是這個領(lǐng)域的新秀,他們獨特的探索發(fā)現(xiàn)方法已經(jīng)有了一些活躍的初期用戶,但是他們非要在產(chǎn)品介紹頁面上寫上一段他們的產(chǎn)品能“解開大型數(shù)據(jù)集的迷”。
從這方面來說,Platfora提供了更簡單的數(shù)據(jù)讀取方式。Platfora的主要功能是把Hadoop里的各種各樣的數(shù)據(jù)提供給更廣泛的用戶。 使用Hadoop說明他們和大數(shù)據(jù)是緊密相連的。但是Platfora沒把大數(shù)據(jù)當(dāng)成重點。Platfora的秘方是向數(shù)據(jù)分析者開放端對端的數(shù)據(jù)轉(zhuǎn)換和 處理。他們的目標(biāo)是:解決IT造成的瓶頸。現(xiàn)在通過Hadoop進(jìn)來的數(shù)據(jù)很大,Platfora看重它理所應(yīng)當(dāng),但我猜想將來Platfora應(yīng)該能夠 在各種各樣的數(shù)據(jù)庫中一展身手。
Platfora的創(chuàng)始人兼CEO Ben Werther說“我認(rèn)為,當(dāng)新的大量的數(shù)據(jù)集被包含進(jìn)來、能夠更能讓你掌握模式和結(jié)果的聯(lián)系被簡歷起來的時候,數(shù)據(jù)分析就變成了大數(shù)據(jù)分析。當(dāng)你合并了 如用戶交互、交易和機器數(shù)據(jù)這些通常屬于不同體系的部分的時候,你就來到了大數(shù)據(jù)時代。我認(rèn)為讓每個商業(yè)分析員都能夠不怕IT瓶頸而問出有意義的問題是一 個嚴(yán)峻的挑戰(zhàn)。”
說到底,大數(shù)據(jù)到底是啥意思呢?
Luth Research的報告驗證了Werther的觀點?;卮鹫弑粏柕搅擞嘘P(guān)下面這些能力的問題:
指定小時數(shù)/天數(shù)內(nèi)的結(jié)果不使用IT技術(shù)來添加數(shù)據(jù)源迭代分析獲取數(shù)據(jù)源訪問不需要把數(shù)據(jù)分成小塊分享結(jié)果的簡易成都不使用IT來做分析數(shù)據(jù)放在集中式數(shù)據(jù)庫內(nèi)處理任何數(shù)量級的數(shù)據(jù)自動實時的分析能方便地加入新數(shù)據(jù)集可視化的結(jié)論分析不同種類的數(shù)據(jù)超過半數(shù)的大數(shù)據(jù)分析產(chǎn)品用戶稱他們有上述所有的能力。計劃使用大數(shù)據(jù)產(chǎn)品的用戶中有四分之一有上述的能力。注意上面和大數(shù)據(jù)有嚴(yán)密關(guān)聯(lián)的只有幾項而已。大多數(shù)不過是更好的商業(yè)智能技術(shù)罷了。
那么偽大數(shù)據(jù)技術(shù)究竟是什么呢?是并不能把大的數(shù)據(jù)集廣泛讓人們使用或不能幫助數(shù)據(jù)科學(xué)家有新突破的技術(shù)。就DataRPM來說,他們的技術(shù)也許是很不錯的,但它并不是大數(shù)據(jù)技術(shù)。
那什么是真的大數(shù)據(jù)技術(shù)呢?是超贊的能夠讓人更容易地有意義地使用大數(shù)據(jù)。換句話說,大數(shù)據(jù)就是說一個東西很好并且能處理大量的數(shù)據(jù)。想要分辨真假 大數(shù)據(jù)技術(shù)的話,當(dāng)一個零售商向你推銷他們的故事的時候你可以問他這個技術(shù)是否能幫你爸媽使用大數(shù)據(jù),或者數(shù)據(jù)科學(xué)家是否能用它來做以前做不到的事。如果 兩樣它都可以,那才可以被稱作大數(shù)據(jù)技術(shù)。如果不能,但你認(rèn)為該技術(shù)也不錯,那就只能管它叫商業(yè)智能。