關于大數(shù)據(jù),我有幾點看法:第一,由于大數(shù)據(jù)剛剛熱起來,所以不必著急下結論。當年IT剛剛發(fā)展時,研究增長問題的權威羅伯特·索洛(Robert Solow)教授提出了一個“索洛悖論”:“我們到處都看得見計算機,就是在生產率統(tǒng)計方面卻看不見。”直到過了15年,到2002年時,他才公開承認說:“我現(xiàn)在發(fā)現(xiàn)IT可能對生產率是有貢獻的。”對大數(shù)據(jù)的研究,可能也需要一個很長的時間才能確認價值所在。
第二,可能性不等于可行性?,F(xiàn)在有種觀點:“到底是大數(shù)據(jù)還是大忽悠?什么都講是大數(shù)據(jù)。”其實是說現(xiàn)在講的或者設想的都是“可能性”而不是“可行性”。“可行性”要到什么時間?現(xiàn)在還看不出來。它需要合理的制度安排,還需要企業(yè)、公司不斷地進行商業(yè)實踐、不斷試錯,以及科研工作者對大數(shù)據(jù)分析技術的不斷改進。
第三,目前的研究主要還是提問階段,而不是解決問題。當然,如果能提出好的問題,這也算是一個研究的好成果。
最后,本文盡量多擺事實、少講道理;多提供一點素材,少提供一點觀點。
一、大數(shù)據(jù)的產生、內涵及爭議
首先,大數(shù)據(jù)何來?實際上大數(shù)據(jù)一直存在,存在于不同的地方。比如每個人都包涵著很多數(shù)據(jù):身高、體重等等,包括觀點、思想。但是過去沒有互聯(lián)網(wǎng),所以這些數(shù)據(jù)很難得到應用。數(shù)據(jù)分析在很早就存在。春秋時孫臏就曾用對方營地做灶的數(shù)量來判斷對方軍隊的數(shù)量,從而指導打仗。不過,當時這樣的數(shù)據(jù)非常少,有這個利用能力的人才會成為時代的智者。
然而,現(xiàn)在的情況不太一樣了?;ヂ?lián)網(wǎng)應用以來,從2005年開始,數(shù)據(jù)在不斷地增長,到2010年以后基本上是一個指數(shù)增長的過程,到2013年時已經超過4個ZB,每年的增長率超過50%。這就是一個從量變到質變的過程。
之前為什么不說大數(shù)據(jù)呢?這是個相對的概念,到某一天它的增長速度突然特別快的時候,“大”的概念就蹦出來了。所以它其實不是一個嚴格的學術概念,只是因為在量變的過程中大家感覺到這種質變,或者感覺它里面有價值。
主要的數(shù)據(jù)來源
主要的數(shù)據(jù)來源,總的來講有兩個方面:
第一,物的數(shù)據(jù)。
其中比較有代表性的,就是由傳感器組成的物聯(lián)網(wǎng),這個概念是IBM在2009年提出來的一種商業(yè)模式,當時叫“智慧地球”。就是把傳感器裝到不同的物體上面,然后展現(xiàn)它的各種數(shù)據(jù),比如溫度、濕度、壓力等等。物聯(lián)網(wǎng)這幾年的增長速度比較快,能達到20%-30%的增長速度,物的數(shù)據(jù)在不斷地增加。
第二,人的數(shù)據(jù)。
其中最典型的是移動互聯(lián)網(wǎng)的發(fā)展。近年來移動互聯(lián)網(wǎng)占整個互聯(lián)網(wǎng)流量的比例越來越高,移動端尤其是用戶自己發(fā)送數(shù)據(jù)的比例大大提高了,這也是大數(shù)據(jù)非常重要的一個來源。通過這些移動端的數(shù)據(jù),就可以判斷一個人的職業(yè)、興趣、品質或者其每時每刻的位置,就是說,靠這些數(shù)據(jù)能很精確地找到每個人的各種情況。
數(shù)據(jù)為什么會突然大量增加?一是IT成本下降,此外,跟這兩年云計算使用率的上升有很大的關系。從亞馬遜彈性云存儲的文件量增長情況可見,從2006年到2013年增加的量是非常顯著的,到2013年二季度時已經有2萬億數(shù)量文件存儲在彈性云上。
那么,云計算為什么會降低IT成本?基于我們之前一年的實踐研究數(shù)據(jù)可知,首先,從需求方來看,過去購買一些硬件包括服務器、電腦等等,成本比較昂貴。但是云計算系統(tǒng)把IT資源集中起來后,以租用的方式來使用,就比買它的價格便宜很多。從供給的角度來看,當把所有的IT資源集中起來以后,會有非常明顯的規(guī)模經濟,因為同時運營很多臺服務器(當然這是基于技術),其成本會顯著下降。
這里還有一個范圍經濟的概念:當把IT資源集中起來以后,不單有規(guī)模經濟,還經營了多種的資源。比如說,搜索可能需要占很多CPU的計算資源,但是磁盤資源可能沒那么多;電子郵件可能相反。當它集中運用的時候,可以同時得到這兩種效率。所以,這也是云計算對IT成本下降的一個貢獻。
大數(shù)據(jù)四“V”
關于大數(shù)據(jù)的定義,現(xiàn)在談得最多的就是所謂的四個“V”,也有五個、六個“V”之說。IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心)歸結的四個“V”中,第一個就是它的實際規(guī)模。從早先的KB,到TB,一直到后來的PB、EB,數(shù)據(jù)的量在不斷地增加,這是一個表面的現(xiàn)象。
第二個“V”是多樣的數(shù)據(jù)類型,尤其是里面包涵了大量的非結構化的數(shù)據(jù)。什么是非結構化的數(shù)據(jù)?比如在網(wǎng)上發(fā)一條微信,這句話本身沒法拿來做統(tǒng)計或計量分析,但是可以在里面提取結構化數(shù)據(jù)進行分析。這樣的數(shù)據(jù)反而占數(shù)據(jù)量很重要的一部分。
第三個“V”講的是價值,有兩點:一個是價值大,大數(shù)據(jù)帶來各種可能性;另外一個比較重要的是,它雖然量很大、價值也很大,但是密度很低。在互聯(lián)網(wǎng)上抓取的1GB的大數(shù)據(jù),里面有用的可能只有千分之一、萬分之一,或者百萬分之一,所以,挖掘和分析比原來更加困難。
第四個“V”就是動態(tài)數(shù)據(jù)的快速處理。在這方面云計算的貢獻比較大,這里比較核心的,也是大數(shù)據(jù)將來能不能從“可能”到“可行”轉變的兩個要素,即:非結構化和低密度。這兩者其實互相相關,如果技術上能解決怎么分析非結構化數(shù)據(jù)、怎么從低密度價值里面提取數(shù)據(jù)的價值,那么大數(shù)據(jù)的應用可能就會有一個飛躍的增長。所以,我覺得非結構化和低密度可能是大數(shù)據(jù)的核心東西。
那么大數(shù)據(jù)是什么呢?如果管中窺豹,從點上去看它,首先,大數(shù)據(jù)的“大”肯定是一個相對的概念,它不是一個絕對的概念。另外,它更不是一個學術性的概念,而且這里面需要關注的就是非結構化的數(shù)據(jù)可能占大數(shù)據(jù)的主要部分,尤其是來自于網(wǎng)民的交互式的數(shù)據(jù)可能是未來大數(shù)據(jù)的主體之一。
從分析方法來看,過去得到數(shù)據(jù)或者統(tǒng)計的方法是抽樣,然后利用概率論和隨機過程等數(shù)學的方法來推理,從而達到目的,推測得出全部數(shù)據(jù)?,F(xiàn)在有這種可能性,如果成本降得比較低的話,就可以獲得全部的數(shù)據(jù)。
對大數(shù)據(jù)的質疑
當然,對大數(shù)據(jù)也有非常多的質疑。首先,有人提出“大數(shù)據(jù)陷阱”。數(shù)據(jù)是不是越多越好?實際上,對任何企業(yè)或個體來說,數(shù)據(jù)肯定不是越多越好,肯定有一個最優(yōu)的數(shù)據(jù)量,因為要分析大量的數(shù)據(jù),方法是不是可能?分析成本有多高?這個大量的數(shù)據(jù)包含的價值有多大?所以,對每一個企業(yè)都有一個最優(yōu)的數(shù)據(jù)量,就是從拿到的數(shù)據(jù)范圍里面獲得的價值和為了獲得這些價值而付出的分析成本,它們兩個接近相等的時候,可能就是最優(yōu)數(shù)據(jù)量。
再就是,MIT的凱特·克勞福德(Kate Crawford)教授提出“大數(shù)據(jù)中存在偏見和盲區(qū)”:數(shù)據(jù)在生成或采集的過程中并不都是平等的,大數(shù)據(jù)集存在“信號問題”,即某些民眾和社區(qū)被忽略或未得到充分體現(xiàn)。這個比較典型,比如說,國內現(xiàn)在有6億多網(wǎng)民,有時候不能用6億的數(shù)據(jù)去判斷13億人的狀態(tài),因為這個過程不是靠抽樣得到的。
第三個問題就是“泄露個人隱私成為日益嚴重的擔憂”。在我們不知情時,數(shù)據(jù)就被人拿走了,這是很可怕的事。
二、大數(shù)據(jù)應用的潛在經濟影響
如果從宏觀或者立體的角度看,人類整個經濟發(fā)展的過程其實就是不斷地把一些不可利用的資源變成可利用的資源的過程。這個過程一般就是技術的一個個大突破,當然每一次技術突破都伴隨著不斷的、大量的投資過程,并將其轉化成價值。
[page]
比如2008年的金融危機,一開始大家都關注金融的問題,后來很多經濟學家提出,這可能是過去的IT技術的經濟效應不斷耗盡,而新的技術還沒有出來所造成的現(xiàn)象——當技術處在一個不給力的階段的時候,金融就發(fā)生問題。實際上很多發(fā)達國家在2008年以后也是寄希望于一套新技術來擺脫實體經濟的衰落和危機,大數(shù)據(jù)包括云計算、新能源都是被他們寄予厚望的幾個關鍵技術之一。
下一代通用目的技術?
1995年時,通用目的技術的概念被提出,其特征就是它在許許多多的部門都具有廣泛而且普遍深入使用的潛力和技術活力,區(qū)別于一般的專用技術,它的影響非常廣,甚至一項通用目的技術的發(fā)展和進步往往會引發(fā)全面的生產率的收益。
到2005年時,加拿大的Lipsey教授出了一本書,總結了人類歷史發(fā)展過程中經歷的24種通用目的技術——從青銅冶煉,到鉆木取火,一直到2000年左右的互聯(lián)網(wǎng)信息技術。所以,如果從增長的視角來觀察大數(shù)據(jù)的話,一個核心的問題就是:大數(shù)據(jù)會不會成為大家期待的下一代的通用目的技術?如果是的話,它可能會帶來比較顯著的經濟增長效應。
目前,大家都在期待著通用目的技術,但是真正在市場里摸爬滾打的風險投資家們,他們顯然還沒有明確地認為哪一項技術能夠成為代替互聯(lián)網(wǎng)的下一代通用目的技術。
在2004年左右時,有人提出了“BT會代替IT”的觀點,講了很多生物技術的可能性,但它最終沒有轉化為能夠看得到的“可行性”——到現(xiàn)在為止,它也沒有真正實現(xiàn)對IT的替代。包括2008年以后的新能源或者云計算、大數(shù)據(jù),它們都沒有真正出現(xiàn)一個讓投資熱高漲的階段。所以,現(xiàn)在我們還沒有明顯地看到下一代通用目的技術是什么,只是有很多的設想,包括今天對大數(shù)據(jù)可能也只是一種設想、一種期望。
產業(yè)發(fā)展前景
從大數(shù)據(jù)本身的情況來看,是不是具備一些通用目的技術的特征?麥肯錫研究院根據(jù)其模型做出一些具體的預測:大數(shù)據(jù)可以為美國的醫(yī)療服務業(yè)帶來3000億美元的潛在增加值,對歐洲的公共管理每年有2500億歐元的潛在價值,為位置服務產業(yè)帶來6000億美元的潛在年收入。同時,零售商充分利用大數(shù)據(jù)可實現(xiàn)運營利潤增長60%——這是一個非常可觀的數(shù)字,因為大數(shù)據(jù)現(xiàn)在對制造業(yè)的利潤平均可能不到5%。另外,制造業(yè)充分利用大數(shù)據(jù)可降低整個成本的50%。
上面是宏觀地看,現(xiàn)在提供一個微觀的案例。德國小貸公司Kreditech不需要客戶提供信用證明,比如資產等,只是通過訪問用戶的一些電子商務數(shù)據(jù)(在中國就是淘寶、eBay的數(shù)據(jù))、社交數(shù)據(jù)(比如Facebook)來了解你的電子商務購物行為、手機的使用情況以及位置數(shù)據(jù)等,然后用這些數(shù)據(jù)來側面分析客戶信用度。這個貸款過程非??欤媚P蛠砼袛?,只需幾秒鐘,放貸只要15分鐘。當然,它只提供小額貸款,目前這些國家的高額貸款主要還是大銀行在做,它們有傳統(tǒng)優(yōu)勢,但是大銀行關注不到的一些地方,就由小貸公司提供服務。Kreditech提供的貸款額度最高為500歐元。從效率上來看,這已經是一個很好的嘗試了。這樣的公司現(xiàn)在美國、英國比較多。
在中國,比如,新的互聯(lián)網(wǎng)企業(yè)、新的龍頭企業(yè)BAT,當初2000年互聯(lián)網(wǎng)泡沫的時候,講的是搜狐、新浪、網(wǎng)易這樣的企業(yè),現(xiàn)在阿里管它們叫“互聯(lián)網(wǎng)1.0”。現(xiàn)在BAT都是掌握了大量數(shù)據(jù)的企業(yè)。其中百度有最大的網(wǎng)頁搜索數(shù)據(jù),阿里巴巴(滾動資訊)有最大的電商數(shù)據(jù),騰訊掌握著最大的社交數(shù)據(jù)。所以,這不是一個偶然的現(xiàn)象。
為什么這樣的企業(yè)會成為引領現(xiàn)代互聯(lián)網(wǎng)產業(yè)發(fā)展的企業(yè)?很可能跟大數(shù)據(jù)的價值有內在的關系。舉一個小例子:打車軟件深度發(fā)展就是基于位置的服務,在每個點上可以看到周圍有哪些車,甚至車的位置也可以知道。反過來也一樣,司機可以看到每個乘客的距離有多遠。這種數(shù)據(jù)如果在這個行業(yè)有很深應用的話,甚至可能會對用戶的購車行為產生影響。
在中國,工信部下屬的賽迪做過一個關于投資的預測:對大數(shù)據(jù)的投資從2012年到2015年大概每年增長100%左右,這個速度甚至超過國外的速度。
對波動的沖擊效應
宏觀經濟學兩個基本的問題:一個是增長,一個是波動。前面講的是一個經濟增長的視角,其實從經濟波動和政府干預的視角來看,大數(shù)據(jù)也會帶來一些沖擊效應。
這里要提出一個問題,大數(shù)據(jù)的發(fā)展能否真正改善供需平衡?因為短期的經濟周期性的波動的危害也是比較大的,其核心就是供需不平衡。大數(shù)據(jù)對此會不會有貢獻?舉兩個例子:一個是淘寶搞的“訂單農業(yè)”。它通過網(wǎng)上的數(shù)據(jù)平臺去獲得需要的信息,然后再按照訂單來組織、安排生產。另外一個例子是制造業(yè)。2013年海爾同阿里合作,叫“家電定制”,先由阿里來收集消費者對海爾產品的需求情況,然后再組織生產,生產周期大概1個-2個月。當時這個活動的效果也不錯。
當然,不能由這兩個案例就推而廣之說大數(shù)據(jù)能解決供需平衡的問題。如果收集全國所有的數(shù)據(jù),恐怕量比較大,而且也比較困難。但是,至少從這個角度來看,我們看到這種可能性,值得思考。
再就是對政府干預合理性的影響。為什么政府需要干預?因為市場失靈了。為什么市場會失靈?比如在二手車市場上,供方和需方的信息是不對稱的,賣車的人擁有比買車的人更多的信息。在這種情況下,如果消費者真的按照市場均衡的價格去買二手車的話,買到的只能是劣等車,好車是買不到的,這就是“劣幣驅逐良幣”的現(xiàn)象。從這個例子可以看出市場是有可能失靈的,所以需要政府在某些方面給予干預。但是在大數(shù)據(jù)的條件下來看這個問題的話,如果一個二手車的買家在合理的制度安排下,比如可以到保險公司去查它的數(shù)據(jù),就知道它修了幾次,出了幾次險,到4S店去看就知道它每次出險修的是什么地方。這樣買家就可能知道二手車的全部信息,這樣會不會對清除這種現(xiàn)象有很大的改善?
講這個故事就是說,經濟學的一些傳統(tǒng)的分析范式也好,一些傳統(tǒng)觀點也好,甚至有一些結論,很可能在大數(shù)據(jù)的條件下會發(fā)生很大變化,比如政府干預的必要性是不是比以前更加不必要了。這都是需要研究的問題。
三、大數(shù)據(jù)對社會治理的可能影響
十八屆三中全會講到:“全面深化改革的總目標是完善和發(fā)展中國特色社會主義制度,推進國家治理體系和治理能力現(xiàn)代化。”“國家治理體系”和“治理能力”到底指的是什么或者如何推進?大數(shù)據(jù)對這個問題應該是可以有貢獻的。
比如,在許多西方國家,通過選舉這套代議制度來把民意反映到政府的層次,而國內除了人民代表大會制度外,更多是領導通過調研的方式來體察民意。這實際上是一種抽樣的性質,去看一些個案,但個案容易在實踐中出現(xiàn)虛假現(xiàn)象,甚至國務院領導都曾被地方作假所蒙蔽。所以,這種體制下怎么去感知民意?現(xiàn)在互聯(lián)網(wǎng)至少匯聚了6億網(wǎng)民的一些數(shù)據(jù),在一定程度上體現(xiàn)了大數(shù)據(jù)的“全樣本”特征,有一個很好的技術基礎。
第二個案例是“犯罪預警”。有些地方的司法部門已經建立了一個大數(shù)據(jù)分析中心,通過分析互聯(lián)網(wǎng)中,比如商業(yè)方面的一些業(yè)務數(shù)據(jù),包括來自于傳感器的傳感數(shù)據(jù)、一些郵件、互聯(lián)網(wǎng)花費單、銀行賬戶等等,將各類結構化的、非結構化的數(shù)據(jù)集中到大數(shù)據(jù)中心來,然后通過線索識別、指紋抽取等一系列手段進行分析,從而達到預警。
再比如,美國洛杉磯警察局總結認為,利用大數(shù)據(jù)的分析軟件,成功地將轄區(qū)里的盜竊犯罪降低了33%,暴力犯罪降低了21%,財產類犯罪降低了12%。其方法很簡單,就是用模型把洛杉磯區(qū)域內即將發(fā)生犯罪的特定語句挑出來,比如人們談論的話:“出去啊”“看球啊”“喝酒啊”等等,通常會與犯罪相關的語言。這就是非結構化的數(shù)據(jù),因為它跟犯罪沒有直接的關系,是通過經驗挑出這些語言,然后作為預防犯罪的一些敏感詞。
這也可能是對社會治理的一個應用,至于怎么去用還需要探索。
還有城市管理方面的一個案例。SpotHero是美國一家手機應用公司,客戶開車到一個地方去時,周圍有幾個停車場,每個停車場有多少個停車位,包括每個停車位的價格是多少,通過這些數(shù)據(jù)去判斷最適合自己停車的地方。
除了人的數(shù)據(jù)以外,傳感數(shù)據(jù)的應用也有廣闊空間。比如說物的數(shù)據(jù),我聽到過一個例子,就是有個城市里有很多休閑的地方,每個地方都有座椅,如果在座椅上安裝一個溫度傳感器的話,大概就能知道每天哪個公共設置的座椅溫度最高,溫度高說明它利用率高,也可以知道哪些椅子長時間沒有人坐。就是說,完全可以通過傳感器的數(shù)據(jù)來安排之后的公共基礎設施,使其達到一個最優(yōu)的狀態(tài),通過這種方式來不斷地優(yōu)化一個城市的治理。
四、大數(shù)據(jù)應用的制度需求
[page]
和政府的作用
從經濟學的角度看,一個很核心的問題是如何界定數(shù)據(jù)的產權?有很多人把大數(shù)據(jù)比喻成石油,一種新的資產。但是,這種產權和財產權應該有很大區(qū)別。我覺得,產權的界定是大數(shù)據(jù)交易和商業(yè)化的前提。經濟學家科斯曾經講過產權界定的重要性,如果產權沒有進行界定的話,可能交易就沒有效率。
這里講一個美國金融貸款公司的案例,它主要給一些小微企業(yè)貸款,貸款額度比德國的Kreditech公司要大一些。它貸款的前提是去聯(lián)邦快遞(UPS)查詢企業(yè)的快遞記錄,但UPS需要企業(yè)的授權同意;另外,即使企業(yè)同意,UPS也可以拒絕金融貸款公司的要求,后者還需要付錢給UPS。小微企業(yè)也可以直接找UPS拿到自己數(shù)據(jù),因為它有這個權利,但金融貸款公司可能質疑數(shù)據(jù)的真實性。因此,這些企業(yè)可以尋求UPS的數(shù)據(jù)認證,然后再將其交給貸款公司。這樣,UPS可以同時向小微企業(yè)和金融貸款公司收取費用。
立法界定產權
對大數(shù)據(jù)來講,如果要利用起來,核心在于如何界定數(shù)據(jù)產權。但是,這個產權不是天經地義,應該從經濟效率或者社會學的角度出發(fā)來界定它,就像專利、像工業(yè)產權一樣。就是說,應該怎么有效率,然后怎么去界定產權。
我覺得,至少需要三個層次的立法:比如剛才講的數(shù)據(jù)的商業(yè)運用應該是什么邊界?個人隱私保護應該在什么邊界?政府數(shù)據(jù)的公開應該在什么邊界?這樣,大家運用起來才能得心應手。一個是會有更多的可用數(shù)據(jù),另外也能減少更多的顧慮,目前基本上還是一個比較混亂的狀態(tài)。
另外,還有一些其他的制度需求。首先,還是需要公平競爭的環(huán)境,比如對金融行業(yè)使用大數(shù)據(jù)的前景是非常好的,但現(xiàn)在也存在很多的市場準入門檻,使銀行僅靠存貸差就可以過好日子。出租車也是一個案例。所以,國內如果應用大數(shù)據(jù)的話,這會是一個很大的問題。
第二,數(shù)據(jù)安全或者信息安全的問題。
關于這點甚至提得更高,說“數(shù)據(jù)主權比產權還高”,包括一些安全預警與審查機制,以及數(shù)據(jù)存儲的地域限制。歐洲搞云計算時就提出了一個原則:歐洲的一些關鍵數(shù)據(jù)不能夠放在美國的云計算中心。再比如對國家數(shù)據(jù)的外泄要立法等。
第三,行業(yè)性立法。
這方面美國已經做了一些。在中國的醫(yī)療行業(yè),實際上在大數(shù)據(jù)出現(xiàn)之前,病歷在醫(yī)院已經電子化了,但是不同醫(yī)院之間仍然不能夠共享,所以這也是一個體制問題。如果能通過行業(yè)性立法,把這些能夠利用的大數(shù)據(jù)都放在一個平臺上,那情況就大不一樣了。包括教育方面,也有很多體制問題需要解決。
政府的作用
最后,簡單說一下政府的作用。
首先,國外政府在做什么?比如2012年美國政府推出“大數(shù)據(jù)行動計劃”,已經炒得很熱。主要是在研究和應用上投了很多錢。
第二,數(shù)據(jù)開放。奧巴馬2013年簽署法令,要求所有新增政府數(shù)據(jù)都必須以電腦文件方式向公眾開放。白宮頒布了開放數(shù)據(jù)政策,要求政府部門列出所有可公開的數(shù)據(jù)清單。如果不可公開的話,也要作出說明。主要是列出這些數(shù)據(jù),及時向公眾開放。
第三,政府采購。云計算時,聯(lián)邦政府還任命了一個首席技術官,專門推進聯(lián)邦政府和部門的云計算應用?,F(xiàn)在數(shù)據(jù)服務可能也是這樣。第四,制定法規(guī)。這不僅是中國的問題,美國也有醫(yī)療、教育、個人隱私等方面的問題,也需要制定法規(guī)。在歐洲,有關個人隱私的法律很多,但還有很多的工作要做。
在中國,首先領導層比較關注。2013年9月,中央政治局在中關村進行開放學習,百度CEO李彥宏現(xiàn)場講解了大數(shù)據(jù)。部委層面也有很多。2013年11月19日,國家統(tǒng)計局與百度、阿里等11家公司簽訂協(xié)議,共同建設“國家統(tǒng)計局大數(shù)據(jù)合作平臺”。因為阿里公布的數(shù)據(jù)基本上是所有平臺上所有小企業(yè)數(shù)據(jù)的集合,所以它對小企業(yè)的感知比統(tǒng)計局要強得多。這種合作也是有好處的。
在法規(guī)方面,去年9月,工信部頒布了《電信和互聯(lián)網(wǎng)用戶個人信息保護規(guī)定》。這個規(guī)定是個起步,和國外的法律體系相比還有很大差距,還需要繼續(xù)努力。
最后,就是資金支持。自2012年以來,科技部、發(fā)改委、工信部等部委在研發(fā)、探索和產業(yè)化專項上,陸續(xù)支持了一批大數(shù)據(jù)項目。對這種新的技術,云計算也好,大數(shù)據(jù)也好,地方政府往往還是走在中央政府之前。現(xiàn)在基本上是“多點開花”的狀態(tài),陜西有“大數(shù)據(jù)科學園區(qū)”,廣東有“大數(shù)據(jù)戰(zhàn)略工作方案”,上海有“大數(shù)據(jù)研發(fā)三年行動計劃”,山東有“產業(yè)聯(lián)盟”,遼寧也在搞。在中關村,還有“大數(shù)據(jù)產業(yè)聯(lián)盟”。
五、關于大數(shù)據(jù)的建議
第一,不必急于出臺所謂的戰(zhàn)略性規(guī)劃和設立產業(yè)專項資金。
因為國內的IT企業(yè)也好,地方政府也好,已經意識到大數(shù)據(jù)產業(yè)的發(fā)展前景,現(xiàn)在熱情非常大。在這種情況下,以國家規(guī)劃和專項資金等方式進行鼓勵,有可能扭曲正常的市場行為,甚至催生泡沫。
在云計算發(fā)展的過程中,這已經非常明顯。很多地方搞云計算搞成了云地產。在這種情況下,我覺得云計算產業(yè)可能已經有了過剩的苗頭,不希望大數(shù)據(jù)也出現(xiàn)同樣的問題。
第二,怎么合理改造、建設和布局好IT基礎設施?
對大數(shù)據(jù)來講,有兩個方面:一個是互聯(lián)網(wǎng)帶寬,這沒問題;另外一個,其實云計算本身就是大數(shù)據(jù)的一個基礎設施,本身就是處理動態(tài)的海量數(shù)據(jù)的。如果沒有這樣一個系統(tǒng),數(shù)據(jù)是不可能大規(guī)模存儲的,也不可能大規(guī)??焖儆嬎?。很多傳統(tǒng)數(shù)據(jù)中心及舊服務器資源,可以通過建立虛擬數(shù)據(jù)中心或進行就近合并等方式進行改造利用。
另外,一些新建的大規(guī)模的數(shù)據(jù)中心,如何通過統(tǒng)籌,合理布局,能夠真正地讓云計算實現(xiàn)降低IT成本的效果,而不是相反。除云計算以外,主要就是加快“寬帶普及提速工程”的推進速度。這個日本和韓國做得比較好。
第三,如何推動隱私保護和公共機構信息公開等立法。2012年全國人大常委會通過了《關于加強網(wǎng)絡信息保護的決定》,工信部也有保護個人信息的新規(guī)。但是還有很多的工作要做,如何繼續(xù)完善個人隱私保護立法還是有很大的問題。
再者,對互聯(lián)網(wǎng)數(shù)據(jù)商業(yè)化應用范圍如何界定?數(shù)據(jù)濫用應承擔哪些責任?目前都還沒有有法可依的東西。然后就是政府信息公開的程度。最后就是哪些數(shù)據(jù)可以向境外流動或允許境外企業(yè)開發(fā)利用,也需要有一些相應的法律規(guī)定。
最后,資助大數(shù)據(jù)基礎技術研究,包括人才培養(yǎng)?,F(xiàn)在搞大數(shù)據(jù)分析或者大數(shù)據(jù)應用,人才很缺乏,這種情況不光是國內存在。
作者為國務院發(fā)展研究中心技術經濟研究部第二研究室主任,本文為作者在洪范法律與經濟研究所舉辦的學術研討會上的發(fā)言