近年來,由于各級政府的高度重視,大數(shù)據(jù)在中國也得到了較快的發(fā)展。當然,作為一個相對新鮮的事物,中國的大數(shù)據(jù)發(fā)展還存在著一定的問題。
2020年中國數(shù)據(jù)總量將占全球21%
經過多年信息化建設和互聯(lián)網發(fā)展,中國已經成為數(shù)據(jù)大國?;ヂ?lián)網已經成為生產、生活的重要技術平臺,隨著信息技術的日益普及和“互聯(lián)網+”融合態(tài)勢的加快,海量數(shù)據(jù)不斷快速聚集,據(jù)工信部總工程師張峰在2015中國國際大數(shù)據(jù)大會上介紹,國際有關機構統(tǒng)計,中國的數(shù)據(jù)總量將以年均50%的速度增長,預計到2020年將占全球的21%。在新形勢下,國務院于2015年6月24日印發(fā)了《關于運用大數(shù)據(jù)加強對市場主體服務和監(jiān)管的若干意見》,提出要充分運用大數(shù)據(jù)先進的理念、技術和資源,加強對市場主體服務和監(jiān)管,推進減政放權和政府職能轉變,提高政府治理能力。同年8月31日頒布了《關于促進大數(shù)據(jù)發(fā)展的行動綱要》,并提出“堅持創(chuàng)新驅動發(fā)展,加快大數(shù)據(jù)部署,深化大數(shù)據(jù)應用,已成為穩(wěn)增長、促改革、調結構、惠民生和推動政府治理能力現(xiàn)代化的內在需要和必然選擇。”
各地出臺大數(shù)據(jù)行動計劃
與此同時,全國各地也加快了推動大數(shù)據(jù)發(fā)展的步伐。其中,廣東、上海、重慶、貴州、武漢等省市在全國率先制定頒布了推動大數(shù)據(jù)發(fā)展的效果政策文件。早在2012年11月,廣東便發(fā)布《廣東省實施大數(shù)據(jù)戰(zhàn)略工作方案》,提出“為保證大數(shù)據(jù)戰(zhàn)略有效實施,廣東省將建設政務數(shù)據(jù)中心,并為高等院校和企業(yè)等成立大數(shù)據(jù)研究機構提供支持。”2013年7月,上海發(fā)布《上海推進大數(shù)據(jù)研究與發(fā)展三年行動計劃(2013-2015年)》,提出“突破大數(shù)據(jù)關鍵技術,建立以企業(yè)為主體、產學研聯(lián)合的發(fā)展機制,形成需求牽引、創(chuàng)新應用的發(fā)展模式,發(fā)展數(shù)據(jù)產業(yè),服務智慧城市。”擬成立“上海大數(shù)據(jù)產業(yè)技術創(chuàng)新戰(zhàn)略聯(lián)盟”,建設“上海市數(shù)據(jù)科學重點實驗室”、數(shù)據(jù)工程技術研究中心等,以大數(shù)據(jù)技術創(chuàng)新及產業(yè)應用為目標、以聯(lián)盟為紐帶促進形成若干引領大數(shù)據(jù)產業(yè)技術創(chuàng)新的企業(yè)聯(lián)合實體。2014年2月,貴州印發(fā)《關于加快大數(shù)據(jù)產業(yè)發(fā)展應用若干政策的意見》、《貴州省大數(shù)據(jù)產業(yè)發(fā)展應用規(guī)劃綱要(2014—2020年)》,提出了貴州省大數(shù)據(jù)發(fā)展的目標是,即推動貴州省大數(shù)據(jù)產業(yè)穩(wěn)步快速發(fā)展,到2020年,大數(shù)據(jù)帶動相關產業(yè)規(guī)模達到4500億元。大數(shù)據(jù)產業(yè)體系基本健全,業(yè)務形態(tài)較為齊備,創(chuàng)新能力顯著增強,安全保障能力明顯提高。產業(yè)載體建設順利推進,聚集一批具有較強市場競爭力的骨干企業(yè)。數(shù)據(jù)中心布局合理,政府數(shù)據(jù)資源實現(xiàn)有效整合,大數(shù)據(jù)開放與管理機制初步建立,應用水平明顯提高,以大數(shù)據(jù)引領和支撐貴州省經濟社會轉型發(fā)展的能力顯著增強。此外,重慶、武漢等其他省市也紛紛頒布了各自的大數(shù)據(jù)行動計劃。
從數(shù)據(jù)大國向數(shù)據(jù)強國轉變五大制約
在中國積極發(fā)展大數(shù)據(jù)的同時,還存在著若干制約中國從數(shù)據(jù)大國向數(shù)據(jù)強國轉變的因素,具體來說,主要包括以下幾個方面:
1.需求不明確
數(shù)據(jù)是大數(shù)據(jù)產業(yè)發(fā)展的基礎,具有商業(yè)價值的數(shù)據(jù)和商業(yè)分析真正能夠幫助企業(yè)提升業(yè)務,創(chuàng)造出新的價值。很多企業(yè)業(yè)務部門不了解大數(shù)據(jù),也不了解大數(shù)據(jù)的應用場景和價值,因此難以提出大數(shù)據(jù)的準確需求。而大數(shù)據(jù)部門又是非盈利部門,企業(yè)決策層擔心投入太多的成本,導致了很多企業(yè)在搭建大數(shù)據(jù)部門時猶豫不決,或者很多企業(yè)都處于觀望嘗試的態(tài)度,從根本上影響了企業(yè)在大數(shù)據(jù)方向的發(fā)展,也阻礙了企業(yè)積累和挖掘自身的數(shù)據(jù)資產,甚至由于數(shù)據(jù)沒有應用場景,刪除很多有價值歷史數(shù)據(jù),導致企業(yè)數(shù)據(jù)資產流失。
2.共享不充分
由于缺少統(tǒng)一規(guī)劃和統(tǒng)一的標準,中國政府部門與數(shù)據(jù)企業(yè)在建設信息化系統(tǒng)的過程中形成了眾多的“信息孤島”。在很多企業(yè)中尤其是大型的企業(yè),數(shù)據(jù)常常散落在不同部門,而且這些數(shù)據(jù)存在不同的數(shù)據(jù)倉庫中,不同部門的數(shù)據(jù)技術也有可能不一樣,這導致企業(yè)內部自己的數(shù)據(jù)都沒法打通。如果不打通這些數(shù)據(jù),大數(shù)據(jù)的價值則非常難挖掘。另一方面,中國的大數(shù)據(jù)市場還不成熟,市場上存在的僅是孤立、不流動、沒有整合的數(shù)據(jù),客戶很難找到完整的、具有商業(yè)價值的數(shù)據(jù)因而不得不從多個數(shù)據(jù)企業(yè)采購數(shù)據(jù),這樣不但效率低,而且費用高。
3.安全保障低
隨著信息技術的不斷發(fā)展,如何保證用戶的信息安全日益成為一個非常重要的課題。在大數(shù)據(jù)時代,要求將所有的數(shù)據(jù)存儲在同一個地方,這使得保護數(shù)據(jù)會變得更加簡單,但與此同時,在線數(shù)據(jù)越多越集中,黑客也越容易獲得關于人的信息,從而更可能實施犯罪。日前一些知名網站密碼泄露、系統(tǒng)漏洞導致用戶資料被盜等安全事件已經警醒我們,要加強大數(shù)據(jù)網絡安全的建設。另一方面,隨著數(shù)據(jù)的不斷增加,對數(shù)據(jù)存儲的物理安全性,從而對數(shù)據(jù)的多副本與容災機制要求也會越來越高。目前,中國多數(shù)政府部門和傳統(tǒng)企業(yè)的數(shù)據(jù)安全令人擔憂。
4.人才隊伍少
大數(shù)據(jù)在中國是新生事物,國內高校開展大數(shù)據(jù)技術人才培養(yǎng)的時間不長,技術市場上掌握大數(shù)據(jù)處理和應用開發(fā)技術的人才很少。另一方面,大數(shù)據(jù)的發(fā)展速度很快,無論是政府部門還是企業(yè)都需要一支掌握懂技術、善管理、有經驗的大數(shù)據(jù)建設專業(yè)隊伍,包括大數(shù)據(jù)開發(fā)工程師、大數(shù)據(jù)分析師、大數(shù)據(jù)架構師、大數(shù)據(jù)后臺開發(fā)工程師、大數(shù)據(jù)算法工程師等。因此,目前中國大數(shù)據(jù)市場上的技術人才儲備與大數(shù)據(jù)處理和應用需求之間存在著巨大的缺口,而且這一缺口將在未來幾年可能持續(xù)存在。
5.隱私保護差
在大數(shù)據(jù)時代,信息公開和數(shù)據(jù)共享是必然的趨勢,但與此同時,隨著數(shù)據(jù)的指數(shù)性增長,隱私泄露事件時有發(fā)生。目前,中國還沒有專門的隱私權保護法律,因而無法保證國家大數(shù)據(jù)戰(zhàn)略進行過程中數(shù)據(jù)的隱私安全。為促進大數(shù)據(jù)的健康有序發(fā)展,我們必須盡快研究制定相關法律法規(guī),明確對大數(shù)據(jù)戰(zhàn)略中每一個項目的活動周期中產生的數(shù)據(jù)進行隱私監(jiān)管,確保數(shù)據(jù)隱私不被侵犯。
發(fā)展中國大數(shù)據(jù)六大對策建議
在借鑒國外發(fā)達國家和地區(qū)先進經驗的基礎上,充分考慮中國具體國情及國內外大數(shù)據(jù)發(fā)展的趨勢,中國發(fā)展大數(shù)據(jù)應該采取如下對策建議。
1.推動數(shù)據(jù)開放
政府擁有大量有價值的數(shù)據(jù),因此政府應該著眼于民生福祉,帶頭推動政府數(shù)據(jù)的開放共享。要加快建立政府數(shù)據(jù)開放平臺,推動各級政府和公共服務機構優(yōu)先開放高價值數(shù)據(jù)資源。加強政府與民間協(xié)作,推動各類優(yōu)質數(shù)據(jù)資源的開放共享。積極發(fā)揮市場的決定性作用,引導更多非公共數(shù)據(jù)向社會開放,鼓勵基于開放數(shù)據(jù)開展應用創(chuàng)新,通過數(shù)據(jù)資源的開放利用,促進大數(shù)據(jù)技術和產業(yè)創(chuàng)新發(fā)展,并惠及更多民眾。
2.健全法律法規(guī)
借鑒美歐等發(fā)達國家和地區(qū)的經驗,加快制定完善《中華人民共和國政府信息公開條例》、《中華人民共和國保守國家秘密法》、《中華人民共和國個人隱私法》等有關信息公開、數(shù)據(jù)安全、網絡安全、隱私保護方面的法律法規(guī),規(guī)范國家重要數(shù)據(jù)的存儲、備份和遷移,保障數(shù)據(jù)安全、可靠。在尊重知識產權的前提下,規(guī)范數(shù)據(jù)隱私保護的范圍、方式和程序,有效避免信息公開與隱私保護方面的沖突,對相關數(shù)據(jù)去除敏感信息后實現(xiàn)開放和共享。
3.完善標準規(guī)范
盡快制定并試行對數(shù)據(jù)開放原則和機制規(guī)范、數(shù)據(jù)分級標準、數(shù)據(jù)發(fā)展及使用的責任與權益等大數(shù)據(jù)發(fā)展應用過程中必需的相關標準規(guī)范。制定數(shù)據(jù)編碼、處理、共享、交換標準,出臺大數(shù)據(jù)技術、協(xié)議、標準等規(guī)范;建立數(shù)據(jù)資產訪問、連接和共享機制,搭建數(shù)據(jù)資產交易平臺,形成數(shù)據(jù)流轉的層次化體系結構;研究數(shù)據(jù)資產的所有權、使用權以及價值評估體系,通過市場化模式保障數(shù)據(jù)資產流轉的可行性。
4.保障信息安全
妥善處理發(fā)展創(chuàng)新和安全規(guī)范的關系,探索完善安全管理規(guī)范措施,切實保障數(shù)據(jù)安全。建立大數(shù)據(jù)安全評估體系,做好大數(shù)據(jù)應用安全評測和風險評估,提高大數(shù)據(jù)平臺信息安全監(jiān)測、預警和應對能力。加強測試工具研發(fā),開展大數(shù)據(jù)平臺可靠性及安全性評測服務,引導大數(shù)據(jù)安全可控和有序發(fā)展。推動數(shù)據(jù)保護、個人隱私、數(shù)據(jù)權益和合理利用等方面的地方立法工作,加快出臺實施細則,對重要數(shù)據(jù)的保存、備份、遷移等進行規(guī)范管理。
5.加強人才培養(yǎng)
落實各項人才政策,創(chuàng)建吸引人才、留住人才的良好環(huán)境,加快從美、歐等發(fā)達國家和地區(qū)引進既懂業(yè)務知識又具分析技能的復合型數(shù)據(jù)人才。扶持高等院校大數(shù)據(jù)相關專業(yè)的發(fā)展,推進大學課程改革,開設一系列符合現(xiàn)在和未來社會需求的數(shù)據(jù)技術的相關課程,培養(yǎng)數(shù)據(jù)存儲、數(shù)據(jù)挖掘、數(shù)據(jù)可視化等方面的專門人才。鼓勵高校和企業(yè)通過建立聯(lián)合實驗室、研發(fā)中心等形式,聯(lián)合培養(yǎng)理論與實踐相結合的大數(shù)據(jù)專業(yè)人才。充分發(fā)揮以崗位培訓和繼續(xù)教育為重點,加大社會化培訓力度,提高在職人員大數(shù)據(jù)應用技能,進一步加強對機關公務員、事業(yè)單位、大中型企業(yè)工作人員的大數(shù)據(jù)知識的培訓與考核。
6.支持技術創(chuàng)新
加大財政對大數(shù)據(jù)關鍵技術研發(fā)創(chuàng)新的引導和扶持力度,構建自主的大數(shù)據(jù)技術體系。加強大數(shù)據(jù)共性基礎技術研發(fā)。重點研發(fā)大數(shù)據(jù)存儲管理、分析挖掘、可視化、數(shù)據(jù)安全等關鍵技術和產品,提前布局自然語言處理、語義理解和機器學習等關鍵技術。支持國內創(chuàng)新型企業(yè),開發(fā)專業(yè)化的數(shù)據(jù)處理分析技術和工具,提供特色化的數(shù)據(jù)服務。支持高校和科研院所建立大數(shù)據(jù)開放實驗室,推動多學科交叉融合,開展大數(shù)據(jù)分析關鍵算法和關鍵技術研究和大數(shù)據(jù)專業(yè)人才培養(yǎng),并加強實踐應用。(武鋒 國家信息中心)
2020年全球大數(shù)據(jù)將達40ZB 美日歐發(fā)展經驗啟示
隨著新一代物聯(lián)網、云計算、移動互聯(lián)網等信息技術的不斷普及,人類產生的數(shù)據(jù)量正在呈指數(shù)級增長,大約每兩年翻一番,而且這個速度將在2020年之前會繼續(xù)保持下去。這意味著人類在最近兩年產生的數(shù)據(jù)量相當于之前產生的全部數(shù)據(jù)量。有關資料顯示,2011年,全球數(shù)據(jù)規(guī)模為1.8ZB,可以填滿575億個32GB的iPad,這些iPad可以在中國修建兩座長城。到2020年,全球數(shù)據(jù)將達到40ZB,如果把它們全部存入藍光光盤,這些光盤和424艘尼米茲號航母重量相當。
在此情況下,數(shù)據(jù)日益成為一種重要的戰(zhàn)略資源。近年來,美、歐、日等發(fā)達國家和地區(qū)也紛紛將開發(fā)利用大數(shù)據(jù)作為奪取新一輪競爭制高點的重要抓手,相繼出臺了相關的戰(zhàn)略規(guī)劃和配套法規(guī)來促進大數(shù)據(jù)應用與發(fā)展,致力于利用大數(shù)據(jù)來進一步增強自身的綜合競爭力。筆者將分析研究上述國家和地區(qū)的具體做法和經驗,供中國健康有序發(fā)展大數(shù)據(jù)學習借鑒。
美國、歐盟、日本大數(shù)據(jù)發(fā)展現(xiàn)狀及舉措:
美國
2010年,美國總統(tǒng)科學技術顧問委員會(PCAST)向奧巴馬和國會提交的《規(guī)劃數(shù)字化的的未來:美國總統(tǒng)科學技術顧問委員會給總統(tǒng)和國會的報告》指出,大數(shù)據(jù)技術具有重要戰(zhàn)略價值,而聯(lián)邦政府對其研發(fā)投資不足,建議聯(lián)邦政府“制定一個應對‘大數(shù)據(jù)’的戰(zhàn)略”。此后,奧巴馬政府著手采取了一系列主題為“我的大數(shù)據(jù)”(My Data Initiatives)的倡議和措施,分別為2010年發(fā)起的《“藍紐扣”計劃》、2012年發(fā)起的《“綠紐扣”計劃》、2012年發(fā)起的《“我的學生數(shù)據(jù)”計劃》和2014年發(fā)起《“創(chuàng)建副本”計劃》,旨在促進美國人可以更安全地獲取他們的個人數(shù)據(jù),從而更好地處理他們私人領域的申請活動和服務。2012年3月,美國投資2億美元啟動了“大數(shù)據(jù)研究和發(fā)展”計劃,該計劃涉及國防部、能源部等6個聯(lián)邦政府部門,用以大力推進大數(shù)據(jù)的收集、訪問、組織和開發(fā)利用等相關技術的發(fā)展,進而大幅提高從海量復雜的數(shù)據(jù)中提煉信息和獲取知識的能力與水平。政府對大數(shù)據(jù)帶來的負面影響也更加重視,白宮 2014年5月,美國發(fā)布的白皮書《大數(shù)據(jù):抓住機遇,守護價值》提出:“大數(shù)據(jù)正在改變世界。但是它并沒有改變美國人對于保護個人隱私、確保公平或是防止歧視的堅定信仰。”
歐盟
歐盟于2011年12月公開頒布了《開放數(shù)據(jù)戰(zhàn)略》。它以開放數(shù)據(jù)為核心,以創(chuàng)新、增長和透明治理為引擎,將重點加強在數(shù)據(jù)處理技術、數(shù)據(jù)門戶網站和科研數(shù)據(jù)基礎設施三方面的投入,旨在歐洲企業(yè)與市民能自由獲取歐盟公共管理部門的所有信息,建立一個匯集不同成員國以及歐洲機構數(shù)據(jù)的“泛歐門戶”。目前,歐盟正在研究制定數(shù)據(jù)價值鏈戰(zhàn)略計劃,以實現(xiàn)數(shù)據(jù)的最大價值,尤其是所謂的“大數(shù)據(jù)”,重點是通過一個以數(shù)據(jù)為核心的連貫性歐盟生態(tài)體系,讓數(shù)據(jù)價值鏈的不同階段產生價值。數(shù)據(jù)價值鏈戰(zhàn)略計劃包括開放數(shù)據(jù)、云計算、高性能計算和科學知識開放獲取這四大戰(zhàn)略,遵循的主要原則是:高質量數(shù)據(jù)的廣泛獲得性,包括公共資助數(shù)據(jù)的免費獲得;作為數(shù)字化單一市場一部分,歐盟內數(shù)據(jù)的自由流動;尋求個人潛在隱私問題與其數(shù)據(jù)再利用潛力之間的適當平衡,同時賦予公民以其希望形式使用自己數(shù)據(jù)的權利。
日本
2012年6月,日本IT戰(zhàn)略本部發(fā)布電子政務開放數(shù)據(jù)戰(zhàn)略草案,邁出了政府數(shù)據(jù)公開的關鍵性一步。為了確保國民方便地獲得行政信息,政府將利用信息公開方式標準化技術實現(xiàn)統(tǒng)計信息、測量信息、災害信息等公共信息,在緊急情況時可以較少的網絡流量向手機用戶提供信息,并盡快在網絡上實現(xiàn)行政信息全部公開并可被重復使用。2012年7月,日本總務省ICT基本戰(zhàn)略委員會發(fā)布的《面向2020年的ICT綜合戰(zhàn)略》(草案)提出,“提升日本競爭力,大數(shù)據(jù)應用不可或缺”,戰(zhàn)略將重點關注“大數(shù)據(jù)應用”。2013年6月,安倍內閣正式公布了新IT戰(zhàn)略——《創(chuàng)建最尖端IT國家宣言》,全面闡述了2013~2020年期間以發(fā)展開放公共數(shù)據(jù)和大數(shù)據(jù)為核心的日本新IT國家戰(zhàn)略,提出要把日本建設成為一個具有“世界最高水準的廣泛運用信息產業(yè)技術的社會”。
經驗與啟示:
1.注重頂層設計
為充分抓住大數(shù)據(jù)帶來的新發(fā)展機遇,美、日等發(fā)達國家無不從國家層面來制定大數(shù)據(jù)戰(zhàn)略規(guī)劃,提出國家實施大數(shù)據(jù)戰(zhàn)略的明確目標,并用于引領帶動本國大數(shù)據(jù)的快速發(fā)展。如美國的《我的大數(shù)據(jù)》、《大數(shù)據(jù)研究和發(fā)展》等,日本《面向2020年的ICT綜合戰(zhàn)略》、《創(chuàng)建最尖端IT國家宣言》等。另一方面,美、日等國政府除了做好大數(shù)據(jù)項目的統(tǒng)籌規(guī)劃以外,還會提供充足的資金以支撐提升國家數(shù)據(jù)能力的基礎設施建設以及促進面向大數(shù)據(jù)創(chuàng)新應用技術的開發(fā),并保證政府部門數(shù)據(jù)存儲需求和數(shù)據(jù)安全需求。
2.注重數(shù)據(jù)開放
為保證大數(shù)據(jù)能夠充分發(fā)揮作用,美、歐、日等發(fā)達國家和地區(qū)都實行了開放數(shù)據(jù)的政策。如美國的《我的大數(shù)據(jù)》分別從退伍軍人健康記錄、納稅信息、電力能源使用和學生助學信息四個方面進行信息公開,使得美國人可以更安全地獲取他們的個人數(shù)據(jù),用來更好地處理他們私人領域的申請活動和服務?!稓W盟開放數(shù)據(jù)戰(zhàn)略》旨在歐洲企業(yè)與市民能自由獲取歐盟公共管理部門的所有信息,建立一個匯集不同成員國以及歐洲機構數(shù)據(jù)的“泛歐門戶”。日本IT戰(zhàn)略本部于2014年6月發(fā)布電子政務開放數(shù)據(jù)戰(zhàn)略草案;并于2013年7月由日本三菱綜合研究所牽頭成立了“開放數(shù)據(jù)流通推進聯(lián)盟”,旨在由產官學聯(lián)合,促進日本公共數(shù)據(jù)的開放應用。
3.注重隱私保護
隨著在大數(shù)據(jù)飛速增長,隱私問題也日益呈現(xiàn)在世人的面前。美、歐、日等發(fā)達國家和地區(qū)在強力推動大數(shù)據(jù)的同時,也充分考慮了隱私的保護。隨著遠程控制技術與云端儲存技術在個人電腦與文件管理領域普及,美國政府正在通過發(fā)展大數(shù)據(jù)戰(zhàn)略來完善隱私法以保證法律跟上技術發(fā)展的腳步?,F(xiàn)今美國最高法院正從第三方數(shù)據(jù)的訪問權限、數(shù)據(jù)和元數(shù)據(jù)的安全、商業(yè)數(shù)據(jù)服務的政府使用、內部威脅和持續(xù)性評估這四個方面著手來完善隱私法。歐盟通過“迎接大數(shù)據(jù)時代”的推廣,呼吁成員國積極推動大數(shù)據(jù)業(yè)務,并就“數(shù)據(jù)所有權”和數(shù)據(jù)提供責任作出新規(guī)定、制定數(shù)據(jù)標準等。
4.注重社會參與
由國家出資推進政府與各科研單位、高校、企業(yè)的合作,組合社會各界多元力量共同參與大數(shù)據(jù)戰(zhàn)略,是發(fā)達國家和地區(qū)的重要經驗。如美國《大數(shù)據(jù)研究和發(fā)展計劃》就是以美國各級政府為主導,依托高校和科研機構,鼓勵聯(lián)邦政府機構和各州政府以及高校、非政府組織和企業(yè)等各種力量廣泛參與,并通過多種形式進行充分的合作。日本為促進本國大數(shù)據(jù)的快速發(fā)展,成立了由三菱綜合研究所牽頭、東京大學等機構廣泛參與的“開放數(shù)據(jù)流通推進聯(lián)盟”。(武鋒 國家信息中心)
【延伸閱讀】
大數(shù)據(jù)4V特征與六大發(fā)展趨勢
隨著新一代信息技術的迅猛發(fā)展和深入應用,數(shù)據(jù)的數(shù)量、規(guī)模不斷擴大,數(shù)據(jù)已日益成為土地、資本之后的又一種重要的生產要素,和各個國家和地區(qū)爭奪的重要資源,誰掌握數(shù)據(jù)的主動權和主導權,誰就能贏得未來。奧巴馬政府將數(shù)據(jù)定義為“未來的新石油”,認為一個國家擁有數(shù)據(jù)的規(guī)模、活性及解釋運用的能力將成為綜合國力的重要組成部分,對數(shù)據(jù)的占有和控制將成為繼陸權、海權、空權之外的另一個國家核心權力。此后,一個全新的概念——大數(shù)據(jù)開始風靡全球。
大數(shù)據(jù)的概念與內涵
“大數(shù)據(jù)”的概念早已有之,1980年著名未來學家阿爾文•托夫勒便在《第三次浪潮》一書中,將大數(shù)據(jù)熱情地贊頌為“第三次浪潮的華彩樂章”。但是直到近幾年,“大數(shù)據(jù)”才與“云計算”、“物聯(lián)網”一道,成為互聯(lián)網信息技術行業(yè)的流行詞匯。2008年,在谷歌成立10周年之際, 著名的《自然》雜志出版了一期??瑢iT討論未來的大數(shù)據(jù)處理相關的一系列技術問題和挑戰(zhàn),其中就提出了“Big Data”的概念。2011年5 月,在“云計算相遇大數(shù)據(jù)” 為主題的EMC World 2011 會議中,EMC 也拋出了Big Data概念。所以,很多人認為,2011年是大數(shù)據(jù)元年。
此后,諸多專家、機構從不同角度提出了對大數(shù)據(jù)理解。當然,由于大數(shù)據(jù)本身具有較強的抽象性,目前國際上尚沒有一個統(tǒng)一公認的定義。維基百科認為大數(shù)據(jù)是超過當前現(xiàn)有的數(shù)據(jù)庫系統(tǒng)或數(shù)據(jù)庫管理工具處理能力,處理時間超過客戶能容忍時間的大規(guī)模復雜數(shù)據(jù)集。全球排名第一的企業(yè)數(shù)據(jù)集成軟件商Informatica認為大數(shù)據(jù)包括海量數(shù)據(jù)和復雜數(shù)據(jù)類型,其規(guī)模超過傳統(tǒng)數(shù)據(jù)庫系統(tǒng)進行管理和處理的能力。亞馬遜網絡服務(AWS)、大數(shù)據(jù)科學家JohnRauser提到一個簡單的定義:大數(shù)據(jù)就是任何超過了一臺計算機處理能力的龐大數(shù)據(jù)量。百度搜索的定義為:"大數(shù)據(jù)"是一個體量特別大,數(shù)據(jù)類別特別大的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集無法用傳統(tǒng)數(shù)據(jù)庫工具對其內容進行抓取、管理和處理?;ヂ?lián)網周刊的定義為:"大數(shù)據(jù)"的概念遠不止大量的數(shù)據(jù)(TB)和處理大量數(shù)據(jù)的技術,或者所謂的"4個V"之類的簡單概念,而是涵蓋了人們在大規(guī)模數(shù)據(jù)的基礎上可以做的事情,而這些事情在小規(guī)模數(shù)據(jù)的基礎上是無法實現(xiàn)的。換句話說,大數(shù)據(jù)讓我們以一種前所未有的方式,通過對海量數(shù)據(jù)進行分析,獲得有巨大價值的產品和服務,或深刻的洞見,最終形成變革之力。
綜合上述不同的定義,我們認為,大數(shù)據(jù)至少應包括以下兩個方面:一是數(shù)量巨大,二是無法使用傳統(tǒng)工具處理。因此,大數(shù)據(jù)不是關于如何定義,最重要的是如何使用。它強調的不僅是數(shù)據(jù)的規(guī)模,更強調從海量數(shù)據(jù)中快速獲得有價值信息和知識的能力。
大數(shù)據(jù)4V特征
一般認為,大數(shù)據(jù)主要具有以下四個方面的典型特征:規(guī)模性(Volume)、多樣性(Varity)、高速性(Velocity)和價值性(Value),即所謂的“4V”。
1.規(guī)模性。大數(shù)據(jù)的特征首先就體現(xiàn)為“數(shù)量大”,存儲單位從過去的GB到TB,直至PB、EB。隨著信息技術的高速發(fā)展,數(shù)據(jù)開始爆發(fā)性增長。社交網絡(微博、推特、臉書)、移動網絡、各種智能終端等,都成為數(shù)據(jù)的來源。淘寶網近4億的會員每天產生的商品交易數(shù)據(jù)約20TB;臉書約10億的用戶每天產生的日志數(shù)據(jù)超過300TB。迫切需要智能的算法、強大的數(shù)據(jù)處理平臺和新的數(shù)據(jù)處理技術,來統(tǒng)計、分析、預測和實時處理如此大規(guī)模的數(shù)據(jù)。
2.多樣性。廣泛的數(shù)據(jù)來源,決定了大數(shù)據(jù)形式的多樣性。大數(shù)據(jù)大體可分為三類:一是結構化數(shù)據(jù),如財務系統(tǒng)數(shù)據(jù)、信息管理系統(tǒng)數(shù)據(jù)、醫(yī)療系統(tǒng)數(shù)據(jù)等,其特點是數(shù)據(jù)間因果關系強;二是非結構化的數(shù)據(jù),如視頻、圖片、音頻等,其特點是數(shù)據(jù)間沒有因果關系;三是半結構化數(shù)據(jù),如HTML文檔、郵件、網頁等,其特點是數(shù)據(jù)問的因果關系弱。
3.高速性。與以往的檔案、廣播、報紙等傳統(tǒng)數(shù)據(jù)載體不同,大數(shù)據(jù)的交換和傳播是通過互聯(lián)網、云計算等方式實現(xiàn)的,遠比傳統(tǒng)媒介的信息交換和傳播速度快捷。大數(shù)據(jù)與海量數(shù)據(jù)的重要區(qū)別,除了大數(shù)據(jù)的數(shù)據(jù)規(guī)模更大以外,大數(shù)據(jù)對處理數(shù)據(jù)的響應速度有更嚴格的要求。實時分析而非批量分析,數(shù)據(jù)輸入、處理與丟棄立刻見效,幾乎無延遲。數(shù)據(jù)的增長速度和處理速度是大數(shù)據(jù)高速性的重要體現(xiàn)。
4.價值性。這也是大數(shù)據(jù)的核心特征?,F(xiàn)實世界所產生的數(shù)據(jù)中,有價值的數(shù)據(jù)所占比例很小。相比于傳統(tǒng)的小數(shù)據(jù),大數(shù)據(jù)最大的價值在于通過從大量不相關的各種類型的數(shù)據(jù)中,挖掘出對未來趨勢與模式預測分析有價值的數(shù)據(jù),并通過機器學習方法、人工智能方法或數(shù)據(jù)挖掘方法深度分析,發(fā)現(xiàn)新規(guī)律和新知識,并運用于農業(yè)、金融、醫(yī)療等各個領域,從而最終達到改善社會治理、提高生產效率、推進科學研究的效果。
大數(shù)據(jù)六大發(fā)展趨勢
雖然大數(shù)據(jù)目前仍處在發(fā)展的起步階段,尚存在著諸多的困難與挑戰(zhàn),但我們相信,隨著時間的推移,大數(shù)據(jù)未來的發(fā)展前景非常可觀。
1.數(shù)據(jù)將呈現(xiàn)指數(shù)級增長
近年來,隨著社交網絡、移動互聯(lián)、電子商務、互聯(lián)網和云計算的興起,音頻、視頻、圖像、日志等各類數(shù)據(jù)正在以指數(shù)級增長。據(jù)有關資料顯示,2011年,全球數(shù)據(jù)規(guī)模為1.8ZB,可以填滿575億個32GB的iPad,這些iPad可以在中國修建兩座長城。到2020年,全球數(shù)據(jù)將達到40ZB,如果把它們全部存入藍光光盤,這些光盤和424艘尼米茲號航母重量相當。美國互聯(lián)網數(shù)據(jù)中心則指出,互聯(lián)網上的數(shù)據(jù)每年將增長50%,每兩年便將翻一番,目前世界上90%以上的數(shù)據(jù)是最近幾年才產生的。
2.數(shù)據(jù)將成為最有價值的資源
在大數(shù)據(jù)時代,數(shù)據(jù)成為繼土地、勞動、資本之后的新要素,構成企業(yè)未來發(fā)展的核心競爭力?!度A爾街日報》在一份題為《大數(shù)據(jù),大影響》的報告宣傳,數(shù)據(jù)已經成為一種新的資產類別,就像貨幣或黃金一樣。IBM執(zhí)行總裁羅睿蘭認為指出,“數(shù)據(jù)將成為一切行業(yè)當中決定勝負的根本因素,最終數(shù)據(jù)將成為人類至關重要的自然資源。”隨著大數(shù)據(jù)應用的不斷發(fā)展,我們有理由相信大數(shù)據(jù)將成為機構和企業(yè)的重要資產和爭奪的焦點谷歌、蘋果、亞馬遜、阿里巴巴、騰訊等互聯(lián)網巨頭正在運用大數(shù)據(jù)力量獲得商業(yè)上更大的成功,并且將會繼續(xù)通過大數(shù)據(jù)來提升自己的競爭力。
3.大數(shù)據(jù)和傳統(tǒng)行業(yè)智能融合
通過對大數(shù)據(jù)收集、整理、分析、挖掘, 我們不僅可以發(fā)現(xiàn)城市治理難題,掌握經濟運行趨勢,還能夠驅動精確設計和精確生產模式,引領服務業(yè)的精確化和增值化,創(chuàng)造互動的創(chuàng)意產業(yè)新形態(tài)。麥當勞、肯德基以及蘋果公司等旗艦專賣店的位置都是建立在數(shù)據(jù)分析基礎之上的精準選址。百度、阿里、騰訊等通過對海量數(shù)據(jù)的掌握和分析,為用戶提供更加專業(yè)化和個性化的服務。在智慧城市建設不斷深入的情況下,大數(shù)據(jù)必將在智慧城市中發(fā)揮越來越重要的作用。由城市數(shù)字化到智慧城市,關鍵是要實現(xiàn)對數(shù)字信息的智慧處理,其核心是引入了大數(shù)據(jù)處理技術,大數(shù)據(jù)將成為智慧城市的核心智慧引擎。智慧金融、智慧安防、智慧醫(yī)療、智慧教育、智慧交通、智慧城管等,無不是大數(shù)據(jù)和傳統(tǒng)產業(yè)融合的重要領域。
4.數(shù)據(jù)將越來越開放
大數(shù)據(jù)是人類的共同資源、共同財富,數(shù)據(jù)開放共享是不可逆轉的歷史潮流。隨著各國政府和企業(yè)對開放數(shù)據(jù)帶來的社會效益和商業(yè)價值認識的不斷提升,全球必將很快掀起一股數(shù)據(jù)開放的熱潮。事實上,大數(shù)據(jù)的發(fā)展需要全世界、全人類的共同協(xié)作,變私有大數(shù)據(jù)為公共大數(shù)據(jù),最終實現(xiàn)私有、企業(yè)自有、行業(yè)自有的全球性大數(shù)據(jù)整合,才不至形成一個個毫無價值的“數(shù)據(jù)孤島”。大數(shù)據(jù)越關聯(lián)越有價值,越開放越有價值。尤其是公共事業(yè)和互聯(lián)網企業(yè)的數(shù)據(jù)開放數(shù)據(jù)將越來越多。目前,美歐等發(fā)達國家和地區(qū)的政府都在政府和公共事業(yè)上的數(shù)據(jù)做出了表率。中國政府也將一方面帶頭力促數(shù)據(jù)公開共享,另一方面,還通過推動建設各類大數(shù)據(jù)服務交易平臺,為數(shù)據(jù)使用者提供豐富的數(shù)據(jù)來源和數(shù)據(jù)的應用。
5.大數(shù)據(jù)安全將日受重視
大數(shù)據(jù)在經濟社會中應用日益廣泛的同時,大數(shù)據(jù)的安全也必將受到更多的重視。大數(shù)據(jù)時代,在我們用數(shù)據(jù)挖掘和數(shù)據(jù)分析等大數(shù)據(jù)技術獲取有價值信息的同時,“黑客”也可以利用這些大數(shù)據(jù)技術最大限度地收集更多有用信息,對其感興趣的目標發(fā)起更加“精準的”攻擊。近年來,個人隱私、企業(yè)商業(yè)信息甚至是國家機密泄露事件時有發(fā)生。對此,美歐等發(fā)達國家紛紛制定完善了保護信息安全、防止隱私泄露等相關法律法規(guī)??梢灶A見,在不久的將來,其他國家也會迅速跟進,以更好地保障本國政府、企業(yè)乃至居民的數(shù)據(jù)安全。
6.大數(shù)據(jù)人才將備受歡迎
隨著大數(shù)據(jù)的不斷發(fā)展及其應用的日益廣泛,包括大數(shù)據(jù)分析師、數(shù)據(jù)管理專家、大數(shù)據(jù)算法工程師、數(shù)據(jù)產品經理等在內的具有豐富經驗的數(shù)據(jù)分析人員將成為全社會稀缺的資源和各機構爭奪的人才。據(jù)著名國際咨詢公司Gartner預測,2015年全球大數(shù)據(jù)人才需求將達到440萬人,而人才市場僅能夠滿足需求的三分之一。麥肯錫公司則預測美國到2018年需要深度數(shù)據(jù)分析人才44萬—49萬,缺口為14萬—19萬人。有鑒于此,美國通過國家科學基金會,鼓勵研究性大學設立跨學科的學位項目,為培養(yǎng)下一代數(shù)據(jù)科學家和工程師做準備,并設立培訓基金支持對大學生進行相關技術培訓,召集各個學科的研究人員共同探討大數(shù)據(jù)如何改變教育和學習等。英國、澳大利亞、法國等國家也類似地對大數(shù)據(jù)人才的培養(yǎng)做出專項部署。IBM 等企業(yè)也開始全面推進與高校在大數(shù)據(jù)領域的合作,力圖培養(yǎng)企業(yè)發(fā)展需要的既懂業(yè)務知識又具分析技能的復合型數(shù)據(jù)人才。(武鋒:國家信息中心)