數(shù)據(jù)并不只是因?yàn)槌蔀榱?ldquo;大數(shù)據(jù)”才有了價(jià)值,“小數(shù)據(jù)”就沒有價(jià)值嗎?而是只要是數(shù)據(jù)都是有價(jià)值的。
大數(shù)據(jù)(bigdata),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無(wú)法通過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊(見百度百科)。業(yè)界將其歸納為4“V”—Volume(大量)、Velocity(高速)、Variety(多樣)、Veracity(真實(shí)性)。大數(shù)據(jù)的“大”,目前應(yīng)該是指與計(jì)算機(jī)為代表的信息設(shè)備誕生以來(lái)這70年所產(chǎn)生的信息數(shù)據(jù)相比是“大”了,即與歷史產(chǎn)生的信息數(shù)據(jù)相比是“巨量”了。但若我們將其放在縱、橫兩個(gè)維度上去比,大數(shù)據(jù)還“大”嗎?
從數(shù)據(jù)產(chǎn)生的過(guò)程看。目前的大數(shù)據(jù)(從TB級(jí)別,躍升到了PB級(jí)別)與以往的MB、GB級(jí)別相比確實(shí)大了,但與未來(lái)的EB、ZB級(jí)別相比還只能稱之為“小數(shù)據(jù)”。從數(shù)據(jù)以外方面看。首先與同為IT概念的IP地址的IPv6相比,即使目前定義數(shù)據(jù)量最大計(jì)量單位DB,與其相比還差近2個(gè)級(jí)別。再與信息(在此信息即為數(shù)據(jù),下同)共同構(gòu)成世界的物質(zhì)、能量三要素的其他二要素物質(zhì)、能量相比,地球的質(zhì)量約為5.98×1027克,世界探明煤炭資源可采儲(chǔ)量約為9.84×1017克,10TB大約等于一個(gè)人腦的存儲(chǔ)量,全球70億人的腦存儲(chǔ)量約為6.52×270Byte,相對(duì)應(yīng)來(lái)看目前所說(shuō)的大數(shù)據(jù)也并不“大”。但我們也還沒有稱IPv6為“大IP地址”,沒有稱物質(zhì)、能量為“大物質(zhì)”、“大能量”等等。
在物質(zhì)世界有“大”就有“小”,如物質(zhì)就計(jì)量單位從小到大有克、十克、百克、千克……,從大到小有克、分克、厘克、毫克……。而數(shù)據(jù),目前計(jì)量單位只能從小到大有bit、Byte、KB、MB……,但卻不能從大到小。而我們知道數(shù)據(jù)計(jì)量單位每縮小一個(gè)級(jí)別,則數(shù)據(jù)量就可增加1024即210倍。
物質(zhì)有限可分還是無(wú)限可分雖然還將爭(zhēng)論下去,但就當(dāng)今理論和實(shí)踐的發(fā)展看物質(zhì)是可分的,就物質(zhì)的計(jì)量單位而言是具有雙向性的(能大能?。?。而數(shù)據(jù)似乎是不可分的,就數(shù)據(jù)的計(jì)量單位而言似乎是單向性的(只能大)。
若將物質(zhì)資源的計(jì)量單位定為“克”,則煤炭?jī)?chǔ)量的數(shù)值可與數(shù)據(jù)資源數(shù)值的EB對(duì)應(yīng);而若將物質(zhì)資源的計(jì)量單位定為“毫克”,則煤炭?jī)?chǔ)量的數(shù)值就可與數(shù)據(jù)資源數(shù)值的ZB對(duì)應(yīng)。就當(dāng)今理論和實(shí)踐的發(fā)展看物質(zhì)是可分的,則物質(zhì)資源的數(shù)值相較數(shù)據(jù)資源就計(jì)量單位而言似乎是無(wú)限大的,數(shù)據(jù)資源的“大”就更待商榷了。
人類利用物質(zhì)和能量資源的過(guò)程是:自然產(chǎn)生物質(zhì)和能量資源(軟件),人類發(fā)明工具開發(fā)物質(zhì)和能量資源(硬件),人類改進(jìn)工藝?yán)梦镔|(zhì)和能量資源。即先有物質(zhì)和能量資源,再有開發(fā)物質(zhì)和能量資源的硬、軟件工具。
而人類利用數(shù)據(jù)資源的過(guò)程是:人類發(fā)明了計(jì)算機(jī)等信息設(shè)備來(lái)承載數(shù)據(jù)資源(硬件),人類設(shè)計(jì)了軟件來(lái)處理數(shù)據(jù)資源(軟件),數(shù)據(jù)才向人類展現(xiàn)出其資源的特性(資源)。即先有了開發(fā)數(shù)據(jù)資源的硬、軟件工具,再有數(shù)據(jù)資源。
物質(zhì)和能量資源的產(chǎn)生經(jīng)過(guò)了億萬(wàn)年自然的進(jìn)化,其產(chǎn)生與人類沒有關(guān)系,即不已人類的意志而轉(zhuǎn)移。而數(shù)據(jù)資源的產(chǎn)生只有短短的幾十年時(shí)間(該數(shù)據(jù)資源是指計(jì)算機(jī)誕生以后產(chǎn)生的信息數(shù)據(jù)資源),其產(chǎn)生與人類有直接關(guān)系,即其會(huì)隨著人類的意志而轉(zhuǎn)移。這種根本性的不同,對(duì)人類意味著什么?目前我們不得而知。物質(zhì)不滅定律(又稱“質(zhì)量守恒定律”)告訴我們“物質(zhì)雖然能夠變化,但不能消滅或憑空產(chǎn)生”。數(shù)據(jù)是否也是不滅的,數(shù)據(jù)又將如何變化呢?這些,我們都是無(wú)法回答的。
目前,“大數(shù)據(jù)”的核心只是改變了人類以前的理解,即承載數(shù)據(jù)的硬件有價(jià)值,處理數(shù)據(jù)的軟件有價(jià)值,而數(shù)據(jù)本身卻不具有價(jià)值。由此,呈現(xiàn)了數(shù)據(jù)本身也是具有價(jià)值這一理念。
“大數(shù)據(jù)”一詞,目前還只是IT界自說(shuō)自話的技術(shù)術(shù)語(yǔ),并沒有體現(xiàn)出其價(jià)值所在,百姓并不明白它有什么用處。其實(shí)還不如稱“大數(shù)據(jù)”為“數(shù)據(jù)資源”或“資源數(shù)據(jù)”。以突出“資源”一詞所蘊(yùn)含的價(jià)值,以體現(xiàn)數(shù)據(jù)的資源特性。