最近,十多位院士向高層建議,我國應制定大數(shù)據(jù)國家戰(zhàn)略,并在發(fā)展目標、發(fā)展原則、關鍵技術等方面作出頂層設計。與此同時,國家發(fā)改委與中科院正在啟動“基礎研究大數(shù)據(jù)服務平臺應用示范項目”。權威人士透露,有關部門正在積極研究,大數(shù)據(jù)國家戰(zhàn)略或將提上議程。
多位院士的建議方案認為,所要制定的大數(shù)據(jù)國家戰(zhàn)略是國家層面的頂層規(guī)劃。其主要內(nèi)容包括:構建大數(shù)據(jù)研究平臺,整合創(chuàng)新資源,實施“專項計劃”,突破關鍵技術;構建大數(shù)據(jù)良性生態(tài)環(huán)境,制定支持政策,形成行業(yè)聯(lián)盟,制定行業(yè)標準;構建大數(shù)據(jù)產(chǎn)業(yè)鏈,促進創(chuàng)新鏈與產(chǎn)業(yè)鏈有效嫁接。
什么是大數(shù)據(jù)
舍恩伯格在《大數(shù)據(jù)時代》中對大數(shù)據(jù)的定義簡潔而清晰:所謂大數(shù)據(jù)就是大量的數(shù)據(jù)。那么,究竟多少數(shù)據(jù)才稱得上“大量”呢?日本野村綜合研究所的分析師城田真琴在《大數(shù)據(jù)的沖擊》一書中對大數(shù)據(jù)的表述是:用現(xiàn)有的一般技術難以管理的大量數(shù)據(jù)的集合??梢?,當數(shù)據(jù)量達到“現(xiàn)有一般技術難以管理”時,它們就足夠“大”了。所謂“用現(xiàn)有的一般技術難以管理”,舉例來說,就是用目前在企業(yè)數(shù)據(jù)庫占主流地位的關系型數(shù)據(jù)庫無法進行管理、具有復雜結構的數(shù)據(jù)。
更確切地說,幾帕字節(jié)(10^15)到幾埃字節(jié)(10^18)的數(shù)據(jù)量才可謂“大”。當然,從多樣性的角度來說,除了傳統(tǒng)的銷售、庫存數(shù)據(jù),現(xiàn)在企業(yè)所采集和分析的數(shù)據(jù)還包括網(wǎng)站的日志數(shù)據(jù)、呼叫中心通話記錄、微博等社交媒體中的文本數(shù)據(jù)、智能手機內(nèi)置GPS所產(chǎn)生的位置信息,甚至還有圖片和視頻。另外,數(shù)據(jù)產(chǎn)生和更新的頻率,也是衡量大數(shù)據(jù)的一個重要特征。例如,日本全國公路上安裝的交通堵塞探測器和路面狀況傳感器每時每刻都在產(chǎn)生著龐大的數(shù)據(jù),波音客機的引擎每秒也產(chǎn)生數(shù)個GB的數(shù)據(jù)。
大數(shù)據(jù)國家戰(zhàn)略的驅動力
人、 機、 物三元世界的高度融合引發(fā)了數(shù)據(jù)規(guī)模的爆炸式增長和數(shù)據(jù)模式的高度復雜化,世界已進入了網(wǎng)絡化的大數(shù)據(jù)(Big Data)時代。以數(shù)據(jù)為中心的傳統(tǒng)學科(如基因組學、 蛋白組學,天體物理學和腦科學等)的研究產(chǎn)生了越來越多的數(shù)據(jù)。此前,美國政府認為,大數(shù)據(jù)是“未來的新石油”,并將對大數(shù)據(jù)的研究上升為國家意志,這一定程度上對我國制定大數(shù)據(jù)國家戰(zhàn)略產(chǎn)生推動力量。
據(jù)著名咨詢公司IDC的統(tǒng)計,2011年全球被創(chuàng)建和復制的數(shù)據(jù)總量為1.8ZB(10的21次方),其中75%來自于個人(主要是圖片、 視頻和音樂),遠遠超過人類有史以來所有印刷材料的數(shù)據(jù)總量(200PB) 。傳感網(wǎng)和物聯(lián)網(wǎng)的蓬勃發(fā)展是大數(shù)據(jù)的又一推動力,各個城市的視頻監(jiān)控每時每刻都在采集巨量的流媒體數(shù)據(jù)。工業(yè)設備的監(jiān)控也是大數(shù)據(jù)的重要來源。例如,勞斯萊斯公司對全世界數(shù)以萬計的飛機引擎進行實時監(jiān)控, 每年傳送PB數(shù)量級的數(shù)據(jù)。
大數(shù)據(jù)科學作為一個新興的交叉學科方向,其共性理論基礎將來自多個不同的學科領域,包括計算機科學、 統(tǒng)計學、 人工智能、 社會科學等。因此,將來推出一個國家科技和產(chǎn)業(yè)專項來引導和支持大數(shù)據(jù)的研究和產(chǎn)業(yè)發(fā)展,也會對相關學科的領域知識與研究方法論產(chǎn)生推動作用。
大數(shù)據(jù)應用前景
大數(shù)據(jù)專項研究的重點任務主要有布局關鍵技術、推進示范應用、完善支持政策等三方面,其中最關鍵的是應用。
大數(shù)據(jù)最大的應用之一是預測。大家都對航班晚點痛苦不已,怎么才能提前知道我訂的航班是否會晚點呢?FlightCaster網(wǎng)站可以讓你提前知道航班的晚點概率。這家美國公司的預報是基于交通統(tǒng)計局、聯(lián)邦航空局交通管制中心警報、美國氣象局和FlightStats(一個航班運行狀況信息的網(wǎng)站)的數(shù)據(jù)而發(fā)布的。FlightCaster能在航空公司正式發(fā)布晚點信息前6小時告訴你,你乘坐的航班“正點概率只有3%,輕微晚點概率14%,晚點一個鐘頭以上的概率是83%”。
這家網(wǎng)站所采用的是過去十年上述單位保存的龐大統(tǒng)計數(shù)據(jù),通過人工智能分析,得出準確率高達90%的預測。至于過去十年數(shù)據(jù)和未來某次航班是否晚點之間有何因果關系,暫時并不能解釋清楚——這便是大數(shù)據(jù)的另外一個特征:用相關關系取代因果關系。
對個人用戶而言,大數(shù)據(jù)還可以預測機票價格走勢,為自費旅游者省錢;預測交通擁堵情況,幫助人們選擇更好的時段和路線節(jié)省出行時間;也可以像亞馬遜那樣,為你提供更準確的書單,幫你發(fā)現(xiàn)更多好書。谷歌還通過分析用戶的搜索關鍵詞,預測出了2009年禽流感在美國本土的嚴重程度以及未來的流行趨勢,成功幫助衛(wèi)生部門抑制住了疾病的大規(guī)模爆發(fā)。
現(xiàn)代商業(yè)環(huán)境變化十分劇烈,對于企業(yè),在大數(shù)據(jù)時代做好準備,利用好大數(shù)據(jù)尤為重要。如著名文具制造商萬寶龍,通過分析監(jiān)控攝像機的數(shù)據(jù),將最想賣出去的商品擺到最容易吸引顧客目光的位置,使得銷售量提高了20%。開源分析機構Wikibon預計,2012年全球大數(shù)據(jù)企業(yè)營收為50億美元,未來5年的市場復合年增長率將達到58%,2017年將達到500億美元。
通過運用過去無法獲取的數(shù)據(jù)來催生新的服務,這才是人們對未來大數(shù)據(jù)時代的最大期望。