批Hadoop之父與吳甘沙有關(guān)大數(shù)據(jù)的對話

責(zé)任編輯:editor005

2014-12-15 11:34:58

摘自:比特網(wǎng)

大家已在第一時間看到了Hadoop之父Cloudera公司首席技術(shù)官Doug Cutting和英特爾中國研究院吳甘沙院長關(guān)于大數(shù)據(jù)原汁原味的對話(參見:Hadoop之父對話英特爾中國研究院院長吳甘沙)。

大家已在第一時間看到了Hadoop之父Cloudera公司首席技術(shù)官Doug Cutting和英特爾中國研究院吳甘沙院長關(guān)于大數(shù)據(jù)原汁原味的對話(參見:Hadoop之父對話英特爾中國研究院院長吳甘沙)。所謂的批肯定不是批判,對于這樣的泰斗級人物,只能是仰望,何來批判。批,就是批注,或者說是讀后感。

英特爾中國研究院院長吳甘沙

2020年攻克癌癥

在吳甘沙院長的談話中說到,人類在于癌癥戰(zhàn)斗的這幾十年間,癌癥的治愈率僅僅提升了8%,其中非常重要的一個因素,就是有關(guān)癌癥的基因組樣本數(shù) 據(jù)太少,影響了研究。隨著大數(shù)據(jù)的進(jìn)步,特別數(shù)據(jù)量的指數(shù)級增長,這就給癌癥的大數(shù)據(jù)研究創(chuàng)造了條件,樂觀地看,2020年,人類有望攻克癌癥。

批注:這當(dāng)然是一件非常的好的事情。有資料顯示,人基因組工程已經(jīng)告罄,接下來是蛋白組學(xué)在臨床中的應(yīng)用。當(dāng)?shù)鞍捉M學(xué)和臨床醫(yī)學(xué)徹底結(jié)合的那一 天,就是癌癥被攻克的日子,不僅是癌癥,相當(dāng)多的疾病會因為這一技術(shù)突破,淡出人類的歷史。我不是這方面的專家,無從判斷,但通過高性能計算,大數(shù)據(jù)分析研究,如果能夠造福人類,將是一件令人鼓舞的事情。讓我們帶著一個美好的愿望,期待事情的發(fā)生吧。

數(shù)據(jù)咖啡館

數(shù)據(jù)咖啡館是吳甘沙院長演講中另外一個亮點,而且吳院長用“相逢不必相識,沒有使用沒有買賣”進(jìn)行了表述。他表示,英特爾針對數(shù)據(jù)咖啡館,從安全分析、使用審計和數(shù)據(jù)定價提供標(biāo)準(zhǔn)和方案。

批注:欽佩英特爾的眼光,一語中的,抓住大數(shù)據(jù)應(yīng)用的主要問題。

在我看來,數(shù)據(jù)咖啡館的核心就是數(shù)據(jù)開放,技術(shù)問題尚在其次,數(shù)據(jù)開放才是重點。在美國,奧巴馬總統(tǒng)多次呼吁從法律、法規(guī)的高度,呼吁開放數(shù)據(jù),可謂高屋建瓴。但國內(nèi),特別是傳統(tǒng)行業(yè)/企業(yè),無不把數(shù)據(jù)視為核心資產(chǎn),深恐有任何閃失和疏漏。

據(jù)我了解,國內(nèi)很多行業(yè)開展大數(shù)據(jù)過程中,數(shù)據(jù)絕對不能夠離開內(nèi)部的服務(wù)器,即使業(yè)務(wù)合作伙伴,只能夠使用數(shù)據(jù),但不可能得到數(shù)據(jù)。很多用戶都知道所謂全數(shù)據(jù)分析更能夠獲取數(shù)據(jù)背后的奧秘。就像吳院長所說的,電商1+電商2的全面用戶畫像會更加精準(zhǔn)。但問題在于,這個“+”怎么實現(xiàn)?

數(shù)據(jù)咖啡館

數(shù)據(jù)咖啡館

我能夠理解行業(yè)用戶防賊般心態(tài)可以理解,就像我在“高速摸奶男和隱私保護(hù)”一文中所表述的,在當(dāng)今這樣的環(huán)境中,數(shù)據(jù)開放將是奢望。因此對于英特爾的數(shù)據(jù)咖啡館在國內(nèi)的前景,我并不樂觀。在我看來,這不是一個經(jīng)濟(jì)收入的問題,而是一個意識的問題。 預(yù)計數(shù)據(jù)咖啡館會有很長的路要走,希望越短越好。

中國大數(shù)據(jù)至少落后兩年

這是Cloudera 公司副總裁苗凱翔先生的判斷。

苗凱翔表示,如果說2011年是中國大數(shù)據(jù)元年,距今也有幾年的歷史了,對于大數(shù)據(jù)特點,全數(shù)據(jù)分析等,國內(nèi)也不陌生。金融、電信、政府等行業(yè)用戶也嘗試了很多大數(shù)據(jù)的應(yīng)用,但從應(yīng)用的水平來說,廣泛性和深度,中國較之國外至少落后兩年。

苗凱翔不僅給出了判斷,也給出了原因分析,國內(nèi)沒有一個專業(yè)的大數(shù)據(jù)服務(wù)提供商。他表示,Cloudera來了,Cloudera會促進(jìn)大數(shù)據(jù)應(yīng)用水平的提高。

批注:Cloudera還是很會宣傳的。但對于Cloudera來說,目前的輿論認(rèn)知對其并不有利。在“大數(shù)據(jù)落地難 Hadoop難辭其咎”一文中就說到,很多行業(yè)用戶把Hadoop作為大數(shù)據(jù)的代名詞加以研究,浪費(fèi)了大量的經(jīng)歷和時間,撿了芝麻丟了西瓜。這就是一個無奈的現(xiàn)狀。

苗凱翔先生在演講中也說到了,Hadoop太復(fù)雜了,國內(nèi)基本上沒有什么人可以搞定。作為一種開源平臺,獲取Hadoop很容易,但駕馭Hadoop就比較難了,特別對于傳統(tǒng)行業(yè)/企業(yè)而言。所以應(yīng)該關(guān)注大數(shù)據(jù)分析這個目標(biāo),而不是分析的平臺。

對于大數(shù)據(jù),人們可以用習(xí)慣的方式,如SQL等成熟的工具進(jìn)行分析。實際上,Splunk、Actian、GreenPlum、Vertica等都是非常成熟的工具,可以直接加以使用。不要為Hadoop耽誤太多時間。

對于Cloudera不利的是,大家熟悉Cloudera,更多是熟悉其Hadoop分發(fā)版。如此,Cloudera就與Hadoop建立對應(yīng) 關(guān)系,而Cloudera更具有價值的各種工具,其實并不為外界了解。我也不了解這些工具。當(dāng)我跟Cloudera接觸,希望進(jìn)一步了解這些工具時,得到 答復(fù),還是需要結(jié)合具體的應(yīng)用加以介紹。在我看來,這會困難重重。

  所以改變落后的局面,應(yīng)該不樂觀。

Hadoop之父印象最深刻的案例

也許是語言理解上的問題,總感覺Hadoop之父Doug Cutting先生演講不夠接地氣。也許是在開源技術(shù)的熟悉程度上不夠,總之能夠激發(fā)的興趣點不多。但Doug Cutting對2015年開源社區(qū)熱點判斷到也值得關(guān)注。Doug Cutting新的熱點也許在于機(jī)器學(xué)習(xí)技術(shù)的泛化,更多會被應(yīng)用到大數(shù)據(jù)的應(yīng)用中。

Hadoop之父Doug Cutting

另外一個亮點是Doug Cutting先生印象深刻的大數(shù)據(jù)應(yīng)用案例。 有兩個,一個是一家信用卡企業(yè),通過使用Hadoop集群,分析5年積累的數(shù)據(jù),發(fā)現(xiàn)了一個金融欺詐方式被反復(fù)使用,借助Hadoop反欺詐取得很好的效 果。另外一個是亞特蘭大某兒童醫(yī)院,通過對于嬰幼兒ICU數(shù)據(jù)監(jiān)測,改善服務(wù)。Doug Cutting表示,此前這些數(shù)據(jù)都不被保存,但通過數(shù)據(jù)監(jiān)測,發(fā)現(xiàn)采血前后,各30分鐘內(nèi),嬰兒的脈搏加劇,表明處于一種緊張、惶恐的狀態(tài)。通過這一發(fā) 現(xiàn),醫(yī)護(hù)工作者可以提供針對的服務(wù)。這讓Doug Cutting印象深刻。

批注:發(fā)欺詐的大數(shù)據(jù)應(yīng)用其實并不陌生。類似應(yīng)用,在互聯(lián)網(wǎng)領(lǐng)域較為普遍,生活中也會有接觸。例如出差登陸QQ等,我們手機(jī)接到預(yù)警,其背后就是海量大數(shù)據(jù)監(jiān)控。對此,有很好的客戶體驗。

但讓人不解的是,這么貼心的客戶體驗為什么不能貫穿全局呢。如果你遇到了QQ號被盜,你就會知道凍結(jié)賬號的手續(xù)有多么糟糕。僅僅是服務(wù)電話的選 擇菜單就足夠折騰了,當(dāng)然這是題外話。對于打動Doug Cutting的案例,似乎有些缺乏新意。或者說,不夠典型。當(dāng)然,首先是理解上的障礙。當(dāng)談到華人對于開源社區(qū)貢獻(xiàn)的障礙時,語言問題也被涉及,這真讓 人無語。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號