未來是大數(shù)據(jù)的時代,大數(shù)據(jù)因此成為一項國家的長遠(yuǎn)發(fā)展戰(zhàn)略。近兩年的政策利好,使大數(shù)據(jù)市場再度迎來了新一輪的發(fā)展高潮。像“44ZB(澤字節(jié))”這樣的驚天數(shù)字(業(yè)界流傳的截至2020年全球大數(shù)據(jù)規(guī)模)因此反復(fù)出現(xiàn)在各種大數(shù)據(jù)會場的電子屏上。
一股焦灼的情緒隨之在全產(chǎn)業(yè)漫延,還沒弄明白怎么搭上“互聯(lián)網(wǎng)+”的快車呢,大數(shù)據(jù)又成了另一個新的困擾,一位行業(yè)用戶曾感嘆,“出去不說兩句大數(shù)據(jù)都感覺自己落伍了。”而不少醫(yī)院行業(yè)用戶直接的反應(yīng)就是,“小數(shù)據(jù)還做不好呢,怎么做大數(shù)據(jù)?”
大數(shù)據(jù)該何以計量?
隨著社會信息化發(fā)展邁入3.0,很多企業(yè)對IT的投入和選擇已經(jīng)跨過了過去“高大快上”的盲目決斷做法,轉(zhuǎn)而更為理性和審慎。比如談大數(shù)據(jù),企業(yè)決策者和IT負(fù)責(zé)人最先考慮的是企業(yè)自身的數(shù)據(jù)規(guī)模到底在一個什么量級。
從目前了解的情況看,很多企業(yè),特別是傳統(tǒng)行業(yè)企業(yè)一年的生產(chǎn)和業(yè)務(wù)合并數(shù)據(jù)量級多處于TB、GB的規(guī)模,比如以某一線城市為例,該市級財政部門的數(shù)據(jù)不到8、9個TB、某地鐵運營公司在50多個TB、某高速公司集團(tuán)公司在TB級、某銀行城市分行數(shù)據(jù)也不過TB級、某三甲醫(yī)院是GB級、某大型制造企業(yè)也才是GB級……
誠然,數(shù)據(jù)規(guī)模的現(xiàn)實情況距離產(chǎn)業(yè)預(yù)期相去甚遠(yuǎn),一方面與企業(yè)所處行業(yè)有關(guān),比如電商、運營商或新媒體這類面向公眾2C的企業(yè)數(shù)據(jù)規(guī)模增長較為明顯;再一個也與企業(yè)對數(shù)據(jù)存儲成本的考量密切相關(guān)。比如上述行業(yè)企業(yè)除了應(yīng)國家要求的數(shù)據(jù)存儲年限外,一般企業(yè)數(shù)據(jù)留存也就三年左右,甚至更短。而且對近年數(shù)據(jù)和歷史數(shù)據(jù)采取分開存儲的辦法,比如最新數(shù)據(jù)與近年數(shù)據(jù)在企業(yè)最新、最好的IT平臺留存,三五年以后的歷史數(shù)據(jù)被轉(zhuǎn)至舊系統(tǒng)沉積。
清華大學(xué)數(shù)據(jù)科學(xué)院工業(yè)大數(shù)據(jù)中心總工程師王晨此前在北京工業(yè)大數(shù)據(jù)創(chuàng)新中心成立大會上從技術(shù)、業(yè)務(wù)和基礎(chǔ)三個方面談工業(yè)大數(shù)據(jù)的戰(zhàn)略思考時特別提到數(shù)據(jù)的基礎(chǔ)。他認(rèn)為,“數(shù)據(jù)就像我們今天流過的河,流過去就再也沒有了。很多企業(yè)想做分析,可它的數(shù)據(jù)平臺大概只能存三個月的數(shù)據(jù)。這個不夠!我們至少需要一年春夏秋冬,才能知道一個完整周期,可能有時一年都不夠,需要兩到三年的數(shù)據(jù)。”
如王晨所言,數(shù)據(jù)是企業(yè)開展大數(shù)據(jù)研究和應(yīng)用的基礎(chǔ),應(yīng)對大數(shù)據(jù),我們所需要的數(shù)據(jù)基礎(chǔ)可能不止兩三年,甚至更長久的數(shù)據(jù)積累。再者,不同的行業(yè)企業(yè),其業(yè)務(wù)特點使得需要研究的數(shù)據(jù)周期都存在很大差異。
那么,數(shù)據(jù)基礎(chǔ)又該如何確定?
國家衛(wèi)生計生委科學(xué)技術(shù)研究所副主任技師董敬認(rèn)為,大數(shù)據(jù)如果僅僅比誰的數(shù)據(jù)量大,占的硬盤空間多,是沒有意義的,“應(yīng)該比的是它所承載的內(nèi)容的多少。但這樣做又不好計量,因為計量是需要有相當(dāng)一部分專業(yè)知識的,結(jié)構(gòu)化數(shù)據(jù)后面的定義很長,這個定義很專業(yè),非專業(yè)人士很難理解。所以現(xiàn)在很多數(shù)據(jù)統(tǒng)計比較的是字節(jié)數(shù)。按字節(jié)數(shù)來統(tǒng)計則容易很多,容量也很輕松就上去了,而且還都是真實的。但它到底有多少信息量,這得另議。因此,關(guān)鍵是看這個大數(shù)據(jù)的概念到底要用在哪兒,怎么用。”
分析路徑受限
面對產(chǎn)業(yè)的大數(shù)據(jù)熱,很多企業(yè)用戶,尤其是傳統(tǒng)企業(yè)用戶持觀望態(tài)度的不在少數(shù)。在他們看來,是否要切入大數(shù)據(jù),以及怎么做大數(shù)據(jù),還得先要明確“怎么才算是大數(shù)據(jù)”。
當(dāng)然,市場近兩年也不乏很多大數(shù)據(jù)分析實踐應(yīng)用的案例。但那是否就是真正意義的大數(shù)據(jù)應(yīng)用呢?中國泛海控股集團(tuán)系統(tǒng)運維總監(jiān)王正望表示,一些企業(yè)在其內(nèi)部利用數(shù)據(jù)所做的一些統(tǒng)計分析工作,嚴(yán)格意義上不能稱之為大數(shù)據(jù),而是一些數(shù)據(jù)的聚合,“原因在于一個是樣本不夠;再一個談大數(shù)據(jù),首先是個人相關(guān)維度的東西都應(yīng)該能抓取到,不能只從一個維度或頂多兩個維度,就說自己是大數(shù)據(jù),怎么也得跨兩個維度。”在他看來,所謂大數(shù)據(jù),要能夠不斷注入新的內(nèi)容,“怎么能夠源源不斷地將數(shù)據(jù)匯總過來,滿足人們隨取隨看。當(dāng)然隨時也不是無限制的。”
另外,先不說數(shù)據(jù)的意義如何,單從海量數(shù)據(jù)的堆積來看,想要做好大數(shù)據(jù)分析處理也并非一件容易的事情。
目前,我們對大數(shù)據(jù)所能采取的分析處理辦法,不外乎兩種方式:一種是數(shù)據(jù)轉(zhuǎn)換,即先將異構(gòu)數(shù)據(jù)轉(zhuǎn)為結(jié)構(gòu)化數(shù)據(jù)后,再利用結(jié)構(gòu)化數(shù)據(jù)時代成熟的分析工具去處理;一種是無需轉(zhuǎn)換,直接對異構(gòu)數(shù)據(jù)進(jìn)行分析處理,后者面臨的最大問題是,已存的分析工具主要都是針對結(jié)構(gòu)化數(shù)據(jù)的,對異構(gòu)數(shù)據(jù)的分析工具也有,但尚不成熟。直白的說就是以現(xiàn)有技術(shù)水平還無法對大數(shù)據(jù)進(jìn)行理想化、成熟地分析。
董敬認(rèn)為,現(xiàn)在談的大數(shù)據(jù)實際是拓展的異構(gòu)數(shù)據(jù)。而異構(gòu)數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)是有本質(zhì)區(qū)別的。“結(jié)構(gòu)化數(shù)據(jù)是數(shù)學(xué)的、數(shù)字的,它是yes和no的關(guān)系,很明確。我們所有東西都是要進(jìn)行數(shù)學(xué)描述的,不會將‘白砂糖’三個字打進(jìn)去。而是先得定義1=白砂糖,2=紅砂糖,然后把1和2輸進(jìn)去,才能進(jìn)行計算。所以,結(jié)構(gòu)化數(shù)據(jù)不只是占用硬盤空間數(shù),它從分析方法到信息承載量,都很成熟。”
他認(rèn)為,客觀講,異構(gòu)數(shù)據(jù)的信息量沒有結(jié)構(gòu)化數(shù)據(jù)的多。比如“白砂糖”三個字,按字節(jié)算是六個字節(jié)。但在結(jié)構(gòu)化數(shù)據(jù)里,比如它等于2,2只有一個字節(jié),卻代表了“白砂糖”這樣六個字節(jié)承載的內(nèi)容。物理上看節(jié)省了五個字節(jié),所以它貯存的效益更高。另外,因為結(jié)構(gòu)化數(shù)據(jù)直接可以帶各種各樣的線性模型,只要一上數(shù)據(jù)公式就能出結(jié)果。
“而現(xiàn)在的異構(gòu)數(shù)據(jù)主要是一些音、視頻和圖形圖象。這些內(nèi)容除結(jié)構(gòu)化數(shù)據(jù)能夠承載的東西外,要對它們進(jìn)行分析會相對復(fù)雜一些,需要人機(jī)輔助。而且異構(gòu)數(shù)據(jù)所承載的信息量,如一段視頻、一張圖片或一張照片,都只是反應(yīng)一件事,就是一個字節(jié)。要想形成大數(shù)據(jù)很容易,只要不做結(jié)構(gòu)化數(shù)據(jù),幾天就能形成大數(shù)據(jù),這幾天的數(shù)據(jù)量比做結(jié)構(gòu)化數(shù)據(jù)的人幾十年做的數(shù)據(jù)量都多。但那只是字節(jié)數(shù),它承載的信息量可能沒什么。”
他指出,對異構(gòu)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化分析,需要用到線性分析模型,但前提必須將其轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù)。當(dāng)然,對異構(gòu)數(shù)據(jù)進(jìn)行轉(zhuǎn)換不是一個簡單的編碼那么容易。因為很多異構(gòu)數(shù)據(jù)并非一個固化的狀態(tài),而是一個動態(tài)的。所以,先得制定一套評價它、固化它的尺度或者標(biāo)準(zhǔn),然后在整個分析過程中用這個標(biāo)準(zhǔn)來衡量所有過程或行為。
首發(fā)集團(tuán)副總工程師兼信息化辦公室主任徐志斌認(rèn)為,“像我們一年大概路上會有幾億筆交易,其中交易車輛信息包括了路上的視頻信息。這些信息形成我們的樣本優(yōu)勢。所以我們希望通過機(jī)器學(xué)習(xí),看能否從現(xiàn)有一些圖片里針對我們自身需求進(jìn)行提取,來做一些特征分析。”但他表示,“采用傳統(tǒng)算法想要做這樣的事情效果不是太理想。”
目前國際上視頻技術(shù)也有比較前沿的研究方向,即如何就視頻數(shù)據(jù)去做濃縮。這樣做的目的,一個是,比如晚上沒車的數(shù)據(jù)有8個小時,通過濃縮,最終可能只留1個小時的數(shù)據(jù),能夠降低成本;第二個,相當(dāng)于是從視頻數(shù)據(jù)里進(jìn)行一些目標(biāo)、特征或事件行為的提取。此外,業(yè)內(nèi)對視頻數(shù)據(jù)分析也有不做結(jié)構(gòu)化轉(zhuǎn)換,直接以圖定圖模式去處理的,“這種應(yīng)用更多的是做一些分析,比如在路上行駛的車輛,可以定位到這輛車在某個時間段里的行駛軌跡、路徑等。”
徐志斌認(rèn)為,現(xiàn)階段先考慮將視頻數(shù)據(jù)從非結(jié)構(gòu)化轉(zhuǎn)成結(jié)構(gòu)化數(shù)據(jù),將大量所需特征提取出來后再做留存,這種方式處理不光是縮減量很大,也只有到這個階段可能才適合留存下來再去做數(shù)據(jù)的挖掘分析。
顯然,在對異構(gòu)數(shù)據(jù)分析處理尚未有特別有效的解決辦法之前,我們大談大數(shù)據(jù)分析應(yīng)用時就不得不警惕產(chǎn)業(yè)泡沫的滋長。
一如中國工程院孫家廣院士曾提醒的那樣,談大數(shù)據(jù),有一個數(shù)據(jù)希望引人注意,“我們傳統(tǒng)數(shù)據(jù)是字符數(shù)據(jù),但現(xiàn)在的大數(shù)據(jù)99%都是新媒體,像視頻、音頻這樣的數(shù)據(jù),字符數(shù)據(jù)占用量不足0.1%。所以,在這個形勢下必須要對大數(shù)據(jù)進(jìn)行研究,過去傳統(tǒng)數(shù)據(jù)里的字符數(shù)據(jù)已經(jīng)過時了。”形勢如此緊迫,相比過早的談?wù)摯髷?shù)據(jù)分析應(yīng)用,我們是否該將更多的目光先轉(zhuǎn)向解決異構(gòu)數(shù)據(jù)的分析處理研究上來呢?