用友華表華秀章:大數(shù)據(jù)落地 因地制宜

責(zé)任編輯:sjia

2012-11-23 16:02:45

來源:企業(yè)網(wǎng)D1Net

原創(chuàng)

用友華表首席架構(gòu)師華秀章應(yīng)主辦方邀請,參與了“云上的大數(shù)據(jù)”主題討論。

2012年11月16日至17日,2012中國技術(shù)商業(yè)領(lǐng)袖峰會在北京舉行。用友華表首席架構(gòu)師華秀章應(yīng)主辦方邀請,參與了“云上的大數(shù)據(jù)”主題討論,與大數(shù)據(jù)和云計(jì)算領(lǐng)域的技術(shù)大佬一起分享對大數(shù)據(jù)的看法。

本次討論主題包括,何為大數(shù)據(jù)?大數(shù)據(jù)是否是謊言?大數(shù)據(jù)的4V對企業(yè)而言哪個最迫切?如何看待大數(shù)據(jù)的隱私?“小馬過河”、“藍(lán)藍(lán)的天上白云飄,白云(云計(jì)算)上面大數(shù)據(jù)跑”,華秀章形象的表述了他對大數(shù)據(jù)的看法:大數(shù)據(jù)不可一概而論,大數(shù)據(jù)的落地更要根據(jù)不同的企業(yè)性質(zhì)和當(dāng)前需求來判斷,讓大數(shù)據(jù)落地因地制宜,分層深入。


用友華表首席架構(gòu)師華秀章

用友華表華秀章認(rèn)為,大數(shù)據(jù)發(fā)展可分為三個階段。第一階段,大數(shù)據(jù)的存儲。這一階段做得已經(jīng)很好了,Hadoop的HDFS等分布式文件系統(tǒng)很好地解決了大數(shù)據(jù)的存儲問題;第二階段,大數(shù)據(jù)的計(jì)算。這一階段將大數(shù)據(jù)與云計(jì)算聯(lián)系起來,可套用一句歌詞形象表達(dá)二者關(guān)系:“藍(lán)藍(lán)的天上白云飄,白云(云計(jì)算)上面大數(shù)據(jù)跑”。如果只是大數(shù)據(jù)的存儲,不需要云計(jì)算。但要讓大數(shù)據(jù)“跑”起來,實(shí)現(xiàn)大數(shù)據(jù)計(jì)算,則需要云計(jì)算這樣超強(qiáng)的、彈性的、廉價(jià)的計(jì)算能力,畢竟Hadoop的MapReduce動輒幾十上百個節(jié)點(diǎn)及配套設(shè)施的投入,不是一般企業(yè)能承受得了的;第三階段,大數(shù)據(jù)的價(jià)值。這是大數(shù)據(jù)發(fā)展的最高階段,“大數(shù)據(jù)大價(jià)值”,從大數(shù)據(jù)中挖掘出企業(yè)經(jīng)營知識,支持企業(yè)精準(zhǔn)決策。這就是數(shù)據(jù)挖掘等BI工具的作用,但傳統(tǒng)BI工具難以勝任大數(shù)據(jù)的挖掘、分析工作,需要一些新的技術(shù)與手段,需要BI for Big Data。

有人預(yù)言,未來數(shù)據(jù)可能取代石油,成為全球最大的交易商品。面對大數(shù)據(jù),企業(yè)的看法不一,甚至出現(xiàn)大數(shù)據(jù)是謊言的說法,認(rèn)為大數(shù)據(jù)并沒有傳說中那么強(qiáng)大。其實(shí)大數(shù)據(jù)的體量大小、價(jià)值大小,不可一概而論。用友華表華秀章認(rèn)為,大數(shù)據(jù)是否謊言,要看具體對象,如同“小馬過河”,說水深水淺需因“人”而異,不加區(qū)分一概而論有時(shí)就會演變?yōu)橹e言。對于互聯(lián)網(wǎng)公司、電商,大數(shù)據(jù)絕非謊言,大量的用戶行為數(shù)據(jù),讓數(shù)據(jù)急劇膨脹到PB級。而對傳統(tǒng)企業(yè),他們絕大部分還沒有到達(dá)“企業(yè)2.0”,沒有企業(yè)SNS,沒有移動應(yīng)用,哪來那么多數(shù)據(jù)?倒來倒去都超不過1TB。對他們談PB級大數(shù)據(jù),就是謊言。

在企業(yè)做好迎接大數(shù)據(jù)的準(zhǔn)備時(shí),大數(shù)據(jù)如何落地成為他們思考的問題。大數(shù)據(jù)有四個V,容量、類型、價(jià)值、速度。由于大數(shù)據(jù)涵蓋的內(nèi)容很多,業(yè)務(wù)場景十分豐富,企業(yè)落地大數(shù)據(jù),要根據(jù)業(yè)務(wù)需求確定實(shí)施優(yōu)先級,不能期望一步到位,因此企業(yè)對這四個V的需求重要性也有所不同。

用友華表華秀章認(rèn)為,對于傳統(tǒng)企業(yè),容量的重要性可排第一也可排第四,要看如何定義“Volume”這個“V”的標(biāo)準(zhǔn)。如果統(tǒng)一按“PB”定義量大,則對傳統(tǒng)企業(yè)就不太重要,至少現(xiàn)階段不太重要,應(yīng)排第四,因?yàn)樗麄兊臄?shù)據(jù)體量離“PB”還差很遠(yuǎn)。但是,與互聯(lián)網(wǎng)公司、電商不同,傳統(tǒng)企業(yè)的數(shù)據(jù)以結(jié)構(gòu)化數(shù)據(jù)為主,如財(cái)務(wù)數(shù)據(jù)、生產(chǎn)數(shù)據(jù)、供應(yīng)鏈數(shù)據(jù)等,這些數(shù)據(jù)蘊(yùn)含豐富的業(yè)務(wù)關(guān)系、結(jié)構(gòu)非常復(fù)雜,相同數(shù)據(jù)量的計(jì)算量比圖片、日志等非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)要大很多。所以,傳統(tǒng)企業(yè)的10TB數(shù)據(jù)量,其需要的計(jì)算資源、處理的復(fù)雜度等并不亞于互聯(lián)網(wǎng)公司的1PB。因此,對傳統(tǒng)企業(yè),衡量“量大”的標(biāo)準(zhǔn)如果相應(yīng)調(diào)整為“TB”,那么,“容量”對傳統(tǒng)企業(yè)的重要性也是排第一的。

第二,應(yīng)該是價(jià)值,因?yàn)殡S著企業(yè)信息化的發(fā)展,數(shù)據(jù)有了一定積累,雖未達(dá)TB級、PB級,但也是可以挖掘出很多價(jià)值的,對企業(yè)決策產(chǎn)生積極影響。這是很多企業(yè)非常迫切需要的,是他們上BI的原因。

第三,是速度。傳統(tǒng)數(shù)據(jù)倉庫的“T+1”模式,越來越難以讓企業(yè)用戶接受,他們對實(shí)時(shí)或準(zhǔn)實(shí)時(shí)決策的期望越來越大。

最后一個是多樣性。中國的企業(yè),目前很多都還沒有達(dá)到 “企業(yè)2.0”,沒有企業(yè)SNS,圖片、音頻等類型數(shù)據(jù)并不是很多,數(shù)據(jù)相對而言沒有那么“多樣性”。但假以時(shí)日,他們終將迎來“企業(yè)2.0”,移動應(yīng)用也越來越普及,數(shù)據(jù)的多樣性問題也會越來越重要,未來企業(yè)需要一種能融化結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的技術(shù)或產(chǎn)品。

我們說大數(shù)據(jù)必須有云計(jì)算才能跑起來,這在于大數(shù)據(jù)的運(yùn)算需要強(qiáng)大的計(jì)算能力。當(dāng)然也有人擔(dān)心把數(shù)據(jù)放到云上,它的安全性、隱私性如何保證?數(shù)據(jù)挖掘的邊界在哪里?用友華表華秀章對于這個問題給出來自己的見解。他認(rèn)為數(shù)據(jù)安全是衡量云平臺是否適合作為企業(yè)云平臺的首要因素,必須有一個分級的數(shù)據(jù)安全模型。象上市公司對外披露的數(shù)據(jù),可公開隨便挖掘;但象財(cái)務(wù)狀況等一些對企業(yè)非常敏感的數(shù)據(jù),必須放在一個安全度極高的“沙箱”中,對其訪問要嚴(yán)格局限在企業(yè)內(nèi)。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號