大數(shù)據(jù)不止是統(tǒng)計數(shù)據(jù)那么簡單!

責(zé)任編輯:editor005

2016-09-21 14:54:10

摘自:大數(shù)據(jù)觀察

統(tǒng)計無時不在,從結(jié)繩記事到今天的大數(shù)據(jù),統(tǒng)計作為人們認(rèn)識客觀世界的工具,也在不斷創(chuàng)新,統(tǒng)計學(xué)作為一門系統(tǒng)研究數(shù)據(jù)的學(xué)科,在不斷豐富與完善。普遍的定義認(rèn)為,統(tǒng)計學(xué)是關(guān)于數(shù)據(jù)的科學(xué),研究如何收集數(shù)據(jù),并科學(xué)地推斷總體特征。

統(tǒng)計無時不在,從結(jié)繩記事到今天的大數(shù)據(jù),統(tǒng)計作為人們認(rèn)識客觀世界的工具,也在不斷創(chuàng)新,統(tǒng)計學(xué)作為一門系統(tǒng)研究數(shù)據(jù)的學(xué)科,在不斷豐富與完善。大數(shù)據(jù)時代來臨,統(tǒng)計如何應(yīng)對新的挑戰(zhàn)與機(jī)遇?我們回顧歷史,不忘初心,以開放的態(tài)度、創(chuàng)新的精神和不懈的努力,繼續(xù)前進(jìn),讓統(tǒng)計在大數(shù)據(jù)的舞臺上,發(fā)揮更大的作用。

大數(shù)據(jù)

普遍的定義認(rèn)為,統(tǒng)計學(xué)是關(guān)于數(shù)據(jù)的科學(xué),研究如何收集數(shù)據(jù),并科學(xué)地推斷總體特征。普查作為最古老的數(shù)據(jù)收集方法,已經(jīng)有數(shù)千年的歷史,據(jù)記載,2200多年前的西漢時期,中國開展了第一次人口普查。17世紀(jì)中葉,統(tǒng)計學(xué)誕生,并在18、19世紀(jì)不斷發(fā)展,特別是與研究不確定性的概率論的結(jié)合,產(chǎn)生了現(xiàn)代意義上的統(tǒng)計學(xué):數(shù)理統(tǒng)計學(xué)。1895年提出抽樣調(diào)查方法并在后來30多年完善后,作為一種更及時、更經(jīng)濟(jì)的數(shù)據(jù)收集方法,被廣泛應(yīng)用于經(jīng)濟(jì)、社會、科學(xué)等各個領(lǐng)域??梢哉f,20世紀(jì)期間,傳統(tǒng)的普查與新產(chǎn)生的抽樣調(diào)查,作為兩大數(shù)據(jù)收集方法體系,共同應(yīng)用于對社會經(jīng)濟(jì)發(fā)展的測量,發(fā)揮了重要作用。

21世紀(jì)大數(shù)據(jù)的出現(xiàn),各種來源、各種形式的電子化數(shù)據(jù)的大爆發(fā),靜態(tài)的、定時的傳統(tǒng)數(shù)據(jù)收集方法,面臨新的、動態(tài)的、組合的大數(shù)據(jù)的挑戰(zhàn)和機(jī)遇,統(tǒng)計思維和數(shù)據(jù)收集方法也將不斷創(chuàng)新。從統(tǒng)計學(xué)誕生的300多年的歷程看,統(tǒng)計學(xué)發(fā)展的歷史就是統(tǒng)計思維和統(tǒng)計方法不斷創(chuàng)新的歷史,這種創(chuàng)新是圍繞著關(guān)于數(shù)據(jù)的兩大核心問題展開的:如何收集數(shù)據(jù)和如何分析數(shù)據(jù)。本文通過回顧重要階段性的幾個片斷,思考統(tǒng)計創(chuàng)新是如何發(fā)生的,重點談大數(shù)據(jù)與統(tǒng)計的關(guān)系,以及會帶來的新變化。

計數(shù):統(tǒng)計的萌芽

在世界著名的科普著作《從一到無窮大》一書開頭,講述了一個發(fā)生在原始部落里的故事:兩個匈牙利貴族決定做一次關(guān)于數(shù)的游戲——誰說出了最大的數(shù)誰就贏,第一個貴族說出了他能想到的最大的數(shù)“3”,第二個貴族苦思冥想后,表示認(rèn)輸了,他想象不出比3更大的數(shù)。這個故事的真假無從考證,但可以說明在人們公認(rèn)的以“結(jié)繩記事”為計數(shù)開始之前,數(shù)的大小概念已經(jīng)產(chǎn)生。但由于還不能“計數(shù)”,甚至還不能將數(shù)的概念與10個指頭相對應(yīng)(這在今天相當(dāng)于2歲孩子的水平),否則,第二個貴族會毫不猶豫地伸出雙手說出10。

計數(shù)是從結(jié)繩記事開始的,當(dāng)然也可以用其他如石頭、木棍、貝殼等,或者在地上、壁上劃痕線等方式。這些是在文字發(fā)明之前,人們使用的記事和計數(shù)的方法。人類最早的統(tǒng)計實際上是一種計數(shù)活動,這在《易系辭下》中有所記載,古代印加人也存有記載;從上古時代,就已經(jīng)開始使用結(jié)繩的方法,“事大,大結(jié)其繩,事小,小結(jié)其繩,之多少,隨物眾寡”,也即根據(jù)事件的性質(zhì)、規(guī)模或其數(shù)量的不同系不同的繩結(jié),這種方法古老原始,卻有效,對于古代人來說,這些大大小小的繩結(jié)、多多少少的劃痕是他們回憶過去的唯一線索。隨著生產(chǎn)活動、戰(zhàn)爭等的規(guī)模越來越大,結(jié)繩記事已經(jīng)不能記事了,要么沒有那么多繩,要么是對那些繩結(jié)的意義的解釋(也就是今天的元數(shù)據(jù)的概念)需要更多的想象和更復(fù)雜的繩結(jié),原始部落的首領(lǐng)們可以看到養(yǎng)了多少牛羊,甚至可以平均分配給每一個人,卻無法記錄下來。

有了文字后,計數(shù)才真正成為一種工具,反映客觀經(jīng)濟(jì)活動及其數(shù)量關(guān)系。實際上,計數(shù)作為一種工具被人們接受后,原始的“普查”就誕生了,有多少人口,有多少土地,有多少俘虜,通過計數(shù)與匯總就可以心中有數(shù)。據(jù)考古發(fā)現(xiàn),公元前3000年前,兩漢流域就已經(jīng)有了這樣的數(shù)據(jù)和匯總計算的符號。當(dāng)然,這與其說是“普查”,更應(yīng)該說是“計數(shù)”,但其產(chǎn)生的意義是非常重大的,就像恩格斯說的,“為了計數(shù),不僅要有可以計數(shù)的對象,還要有一種在考察對象時,撇開對象的其他一切特性而僅僅考慮到數(shù)字的能力”,這也就是抽象的數(shù)字的概念,實物的多少與數(shù)的對應(yīng)關(guān)系的確立,并建立了運算規(guī)則,為統(tǒng)計學(xué)的誕生與發(fā)展奠定了基礎(chǔ),這也是統(tǒng)計的萌芽,充分表明了客觀世界就是一個“數(shù)及數(shù)的關(guān)系的和諧系統(tǒng)”。

數(shù)的游戲:概率計算

關(guān)于數(shù)的游戲自古就有,而這些游戲主要就是賭博:不確定性帶來的收益。不管是抽簽、還是投擲錢幣、擲骰子、斗紙牌,各種不同形式的以“不確定性”為基礎(chǔ)的賭博,實際上都是“數(shù)”的游戲,這當(dāng)然也開始引起了學(xué)者們的注意和研究。到了15世紀(jì)的歐洲,賭博游戲非常流行。最早研究賭博問題的是1477年出版的意大利詩人但丁的《神曲》一書的注釋本,描述了投擲三顆骰子可能出現(xiàn)的各種點數(shù)問題。

從16世紀(jì)中葉開始,學(xué)者們開始研究賭博中的概率問題。意大利人加爾達(dá)偌(1501-1576)是一位數(shù)學(xué)家,也是一個精明的賭徒,他寫的《機(jī)會游戲》一書,是在他去世近100年后才出版的。他計算了投擲2顆或者3顆骰子時,究竟有多少種可能性得出投擲的骰子面朝上的數(shù)字之和為某一數(shù)(比如10),這在當(dāng)時對排列組合所知甚微的情況下,是非常難得的。意大利天文學(xué)家伽利略(1564-1642)研究了同樣的問題,并寫了一篇論文給出了圓滿的解答,算出了所有點數(shù)的可能性,如在投擲三顆骰子時,出現(xiàn)的數(shù)字之和為9和10,各有6種不同的組合法。這個問題在今天是一個很簡單的排列組合問題,但在當(dāng)時,誰掌握了這一秘密,誰就可能成為更精明的賭徒。

到了17世紀(jì)中葉,兩位法國大數(shù)學(xué)家帕斯卡(1923-1662)、費馬(1601-1665)開始研究丟骰子賭博中的規(guī)律性問題。他們利用通信,幾經(jīng)研究,解決了著名的“得點問題”(也稱“分賭術(shù)”問題),通過對這個問題的研究,早期概率的計算從簡單計數(shù)進(jìn)入了比較精確的計算階段,這也被認(rèn)為是概率論的起源。從此,更多的學(xué)者們開始研究概率及計算問題,從研究賭博開始的古典概率,在不確定性的科學(xué)研究上,逐步建立了一套科學(xué)完整的體系:概率論。

統(tǒng)計學(xué)的誕生:讓數(shù)據(jù)說話

統(tǒng)計學(xué)誕生的大背景是在15世紀(jì),由于歐洲地中海沿岸商品經(jīng)濟(jì)的發(fā)展以及思想、技術(shù)的進(jìn)步,從中世紀(jì)封建社會內(nèi)部產(chǎn)生的資本主義及發(fā)展。資本主義商品經(jīng)濟(jì)的產(chǎn)生和發(fā)展,人們對數(shù)據(jù)的認(rèn)識不僅僅是賭博游戲,而是對事物規(guī)律性的認(rèn)識。之前,往往是滿足“計數(shù)”的需要,記錄歷史,回答“干了什么”,而資本主義商品經(jīng)濟(jì)的發(fā)展則要滿足“生產(chǎn)”的需要了,不僅要記錄歷史,還要預(yù)測未來,回答“要干什么”。除此之外,還有一些原因也促進(jìn)了統(tǒng)計學(xué)的誕生:如為了商業(yè)的冒險行為,包括商業(yè)投機(jī)和航海商業(yè),保險業(yè)的興起等。

統(tǒng)計學(xué)的誕生及發(fā)展使人們對數(shù)據(jù)規(guī)律性的認(rèn)識上了一個大臺階。作為統(tǒng)計學(xué)的起端,幾乎同時發(fā)生了兩個劃時代的重大事件:一是格朗特(1620-1674)1662年發(fā)表的《關(guān)于死亡公報的自然和政治觀察》(簡稱《觀察》),二是威廉·配第(1623-1687)1667年發(fā)表的《政治算術(shù)》。這兩部著作都被認(rèn)為是統(tǒng)計學(xué)的鼻祖,他們各自研究的重點不同,后來的學(xué)者們往往站在不同的角度進(jìn)行評價。

《觀察》利用英國倫敦每周公布的死亡人數(shù)及相關(guān)人口資料,分析了60多年中居民死亡原因及與人口變動的關(guān)系,用了大量表格、演算,提出了人口男女性別的大數(shù)法則,編制了人口統(tǒng)計分析壽命表及人口推算方法等,這在今天看來,是統(tǒng)計工作的基礎(chǔ)環(huán)節(jié)——統(tǒng)計匯總與描述性分析,但在當(dāng)時,確是開創(chuàng)性地利用公布的有限數(shù)據(jù),分析推斷了倫敦人口的總體分布與特征。

威廉·配第的《政治算術(shù)》崇尚讓數(shù)據(jù)說話,依據(jù)數(shù)據(jù)分析更廣泛的社會、經(jīng)濟(jì)問題(不局限于人口分析),而不只是依靠思辨或空洞的推演,正如他自己所說:“與只使用比較級和最高級的詞語以及單純作思維論證相反,我采用數(shù)字、重量和尺度等術(shù)語來闡述我的觀點。”他的兒子把該書獻(xiàn)給國王時說:“書中論述了凡是政府事務(wù)以及有關(guān)君主榮譽(yù)、百姓幸福和國家昌盛的事項,都可以用算術(shù)的一般法則證實。這種方法,就是用一種普通的科學(xué)原理解釋錯綜復(fù)雜的世界。”可以說,《政治算術(shù)》是把培根的實證科學(xué)思想和方法,通過數(shù)據(jù)的分析,運用到了廣泛的社會經(jīng)濟(jì)領(lǐng)域。

威廉·配第對統(tǒng)計的貢獻(xiàn)還在于強(qiáng)調(diào)典型調(diào)查作用,在數(shù)據(jù)分析中更多地使用分組法、平均數(shù)、相對數(shù)、統(tǒng)計推斷等,他還先見地提出計算整個國家的國民收入與國民財富,并對英國國民收入進(jìn)行詳細(xì)估算。有了統(tǒng)計學(xué)帶來的數(shù)據(jù)分析方法,就有了后來的經(jīng)濟(jì)學(xué)、社會學(xué)等,亞當(dāng)斯密的《國富論》是1776年發(fā)表的,比《政治算術(shù)》晚了100多年。19世紀(jì)末20世紀(jì)初開始建立起來的數(shù)理統(tǒng)計理論和抽樣調(diào)查方法的推廣應(yīng)用,更是廣泛應(yīng)用于自然科學(xué)、經(jīng)濟(jì)學(xué)和社會科學(xué)等。

“統(tǒng)計時代”:

雜亂無章數(shù)據(jù)背后的規(guī)律

19世紀(jì)初上半葉,統(tǒng)計學(xué)逐漸取代“國勢學(xué)”、“政治算術(shù)”,作為近代文化發(fā)達(dá)的標(biāo)志之一,就是統(tǒng)計開始大量于社會經(jīng)濟(jì)自然科學(xué)各個方面并形成了統(tǒng)計發(fā)展史的高潮,后來被稱之為“統(tǒng)計時代”、“統(tǒng)計狂熱時代”,一切讓數(shù)據(jù)說話成為一種理念、一種時尚,就像今天誰不說大數(shù)據(jù),誰就落伍了一樣。

這個時代的中心人物是比利時統(tǒng)計學(xué)家、數(shù)學(xué)家、天文學(xué)家凱特勒(1796-1874)。他的主要貢獻(xiàn)有:一是系統(tǒng)提出統(tǒng)計規(guī)律性研究,認(rèn)為統(tǒng)計學(xué)不僅要記述各國的國情,研究社會現(xiàn)象的靜態(tài),而且要研究社會生活的動態(tài),從而觀察社會發(fā)展的規(guī)律。他提出要探索在紛繁雜亂的大量偶然性現(xiàn)象的背后所隱藏的必然規(guī)律。二是促進(jìn)了統(tǒng)計學(xué)與概率論的結(jié)合,使統(tǒng)計學(xué)進(jìn)入新的發(fā)展階段——現(xiàn)代統(tǒng)計學(xué)階段。在此之前,研究國家社會經(jīng)濟(jì)現(xiàn)象的統(tǒng)計學(xué)與研究賭博起來的概率論是風(fēng)馬牛不相及的兩個學(xué)科,要說清楚他們的結(jié)合,還必須先說說一條最重要的曲線:正態(tài)分布曲線。

這條曲線很好看,又好用,從天文觀察到人體測量,在自然界中無處不在,在當(dāng)時作為誤差分析的有力武器達(dá)到了登峰造極的地步,使得人們在雜亂無章的數(shù)據(jù)背后,能夠發(fā)現(xiàn)秩序和規(guī)律性。凱特勒在19世紀(jì)30年代主持建立比利時統(tǒng)計局后,發(fā)現(xiàn)以往被人們認(rèn)為雜亂無章的、毫無規(guī)律可循的社會現(xiàn)象,也如同自然界一樣具有規(guī)律性。他收集了大量關(guān)于人體測量的數(shù)據(jù),開創(chuàng)性地提出用正態(tài)曲線擬合方法判斷人體測量數(shù)據(jù)的同質(zhì)性問題,隨后應(yīng)用于各種數(shù)據(jù)分析,為正態(tài)曲線的應(yīng)用拓展了廣闊的統(tǒng)計平臺,也導(dǎo)致后來涌現(xiàn)了社會統(tǒng)計學(xué)、生物統(tǒng)計學(xué)、農(nóng)業(yè)實驗學(xué)、經(jīng)濟(jì)統(tǒng)計學(xué)等統(tǒng)計流派。統(tǒng)計學(xué)發(fā)展百花齊放,數(shù)據(jù)的天空次序井然。

這個時代另一個顯著的特點是政府官方統(tǒng)計的建立與發(fā)展,其主要原因除了統(tǒng)計科學(xué)的不斷完善外,還因為隨著社會經(jīng)濟(jì)發(fā)展,各國政府、民間機(jī)構(gòu)對統(tǒng)計數(shù)據(jù)有大量需求。

凱特勒的另一個貢獻(xiàn)是推動了國際統(tǒng)計組織合作。由于大量的統(tǒng)計機(jī)構(gòu)的建立,民間研究團(tuán)體的涌現(xiàn),各種被利用的數(shù)據(jù)增多,統(tǒng)計學(xué)家們面臨一些共同的問題,包括統(tǒng)計的標(biāo)準(zhǔn)、個體的界定、數(shù)據(jù)的質(zhì)量等基本問題,也包括統(tǒng)計資料的交流、統(tǒng)計理論和方法的推廣與傳播等,都需要各國統(tǒng)計學(xué)家的共同研究。在凱特勒等的努力下,1851年在倫敦成立了第一個國際統(tǒng)計組織——國際統(tǒng)計大會,1853年主持召開了第一次會議。這是國際統(tǒng)計學(xué)會(ISI)的前身,1887年,ISI在羅馬召開了第一次會議,自1938年起,每兩年召開一次,后來改名為世界統(tǒng)計大會(WSC)。到目前已召開了60屆,對統(tǒng)計學(xué)的發(fā)展和推動各國統(tǒng)計工作發(fā)揮了很大的作用

大數(shù)據(jù):新資源、新機(jī)會

大數(shù)據(jù)是人類自身產(chǎn)生的一種新的“自然”資源,與支撐傳統(tǒng)經(jīng)濟(jì)發(fā)展的自然資源,如土地、石油、煤、水等不同,這種人造“自然”資源越用越多,越用越便宜,越用越有價值,以知識、創(chuàng)新、ICT、IT、DT為主要特征的新經(jīng)濟(jì)的發(fā)展更多是依靠這種新資源??梢哉f,21世紀(jì)的競爭是數(shù)據(jù)的競爭,誰擁有了大數(shù)據(jù),誰就占領(lǐng)了制高點,誰就擁有洞見的能力,誰就能引領(lǐng)未來。

與傳統(tǒng)統(tǒng)計學(xué)研究的數(shù)據(jù)比,大數(shù)據(jù)有幾個特點:一是數(shù)據(jù)量大。按有關(guān)機(jī)構(gòu)測算,全球數(shù)據(jù)量每兩年翻一番。這還不是主要問題,因為摩爾定理表明,數(shù)據(jù)處理能力每18個月就可以翻一番。二是數(shù)據(jù)類型多。數(shù)據(jù)不僅僅是數(shù)字,包括了結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),特別是互聯(lián)網(wǎng)和通訊技術(shù)的迅速發(fā)展,電子商務(wù)和社交網(wǎng)絡(luò)的廣泛應(yīng)用,網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理空間位置、網(wǎng)上交易等成為新的數(shù)據(jù)形式。三是數(shù)據(jù)上云。大數(shù)據(jù)已經(jīng)無法用傳統(tǒng)的存儲、計算方式來處理,數(shù)據(jù)上云意味著,可以通過網(wǎng)絡(luò),依托于云計算的分布式處理、分布式數(shù)據(jù)庫、云存儲和虛擬化等技術(shù),對海量數(shù)據(jù)進(jìn)行整合、挖掘,從技術(shù)上看,大數(shù)據(jù)與云計算就像一對孿生兄弟或者一枚硬幣的正反面一樣密不可分。

除了上述三個特點外,一般認(rèn)為大數(shù)據(jù)還有兩個特點:速度和價值。一般將數(shù)據(jù)量(Volume)、數(shù)據(jù)類型(Variety)、速度(Velocity)和價值(Value)稱為“4V”,刻畫了大數(shù)據(jù)的基本特征。

哈佛大學(xué)里·金教授說:“大數(shù)據(jù)是一場革命,龐大的數(shù)據(jù)資源使得各個領(lǐng)域開始了量化進(jìn)程,無論學(xué)術(shù)界、商業(yè)還是政府,所有領(lǐng)域都將開始這種進(jìn)程。”今天,我們進(jìn)入了信息社會,面臨著大數(shù)據(jù)時代的來臨,云計算、物聯(lián)網(wǎng)、移動終端及可穿戴設(shè)備高度發(fā)達(dá)與融合,不管你是誰、不管你愿意不愿意,都要與數(shù)據(jù)打交道,要么在生產(chǎn)數(shù)據(jù),要么在接收數(shù)據(jù),不管身在何處,你已經(jīng)被“大數(shù)據(jù)”了。從日常生活到國家宏觀調(diào)控,我們面臨的都將是各種數(shù)據(jù)。如何在各種各樣的數(shù)據(jù)中進(jìn)行深入的分析和挖掘,發(fā)現(xiàn)這些數(shù)據(jù)當(dāng)中隱藏的更深刻的規(guī)律和現(xiàn)象,就能更好地服務(wù)于政府決策和社會各方面的需求,大數(shù)據(jù)的真正價值就體現(xiàn)在這里。

國際上很多組織和國家,特別是發(fā)達(dá)國家,都已經(jīng)把大數(shù)據(jù)的開發(fā)應(yīng)用提高到戰(zhàn)略的高度來研究。聯(lián)合國《大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機(jī)遇》(2012)認(rèn)為:“大數(shù)據(jù)像納米技術(shù)和量子計算一樣帶來了根本性的變革,將會塑造21世紀(jì)。”世界經(jīng)濟(jì)論壇發(fā)布的《大數(shù)據(jù)、大影響:國際發(fā)展的新動向》稱:“大數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟(jì)資產(chǎn)類別,就像貨幣或黃金一樣。”維克托在《大數(shù)據(jù)時代—生活、工作與思維的大變革》中說:“大數(shù)據(jù)時代將帶來思維變革、商業(yè)變革和管理變革,隨著大數(shù)據(jù)在商業(yè)等領(lǐng)域嶄露頭角,一場為發(fā)掘和利用數(shù)據(jù)價值的競賽正在全球上演,人類將面臨根本性的時代變革。”

大數(shù)據(jù)時代,我國優(yōu)勢明顯。第一,從政策層面,我國已經(jīng)出臺并實施了《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》和《中國制造2025》。第二,我國是世界第一人口大國,第二大經(jīng)濟(jì)體,有1500多萬個法人單位,1800多萬個產(chǎn)業(yè)活動單位,還有大量其他經(jīng)濟(jì)主體不斷涌現(xiàn)。人口和經(jīng)濟(jì)規(guī)模決定了我國是一個數(shù)據(jù)資源大國。第三,我國是一個網(wǎng)絡(luò)大國,截至2016年6月,中國互聯(lián)網(wǎng)普及率達(dá)到51.7%,網(wǎng)民規(guī)模達(dá)7.1億,手機(jī)網(wǎng)民規(guī)模達(dá)6.56億,一大批互聯(lián)網(wǎng)企業(yè)、大數(shù)據(jù)企業(yè)正在改變著傳統(tǒng)的生產(chǎn)生活方式。第四,大數(shù)據(jù)時代與我國經(jīng)濟(jì)發(fā)展新常態(tài)正處在一個歷史的交匯口,提質(zhì)增效、轉(zhuǎn)型升級為加快大數(shù)據(jù)的應(yīng)用提供了機(jī)遇,同時,以大數(shù)據(jù)開發(fā)為基礎(chǔ)的一大批產(chǎn)業(yè)將形成新的經(jīng)濟(jì)增長點,推動新經(jīng)濟(jì)的發(fā)展,實現(xiàn)動能轉(zhuǎn)換。

大數(shù)據(jù)催生統(tǒng)計創(chuàng)新

普查和抽樣調(diào)查是傳統(tǒng)的兩大數(shù)據(jù)收集方法。普查不需要統(tǒng)計學(xué)方法進(jìn)行推斷估計,因為通過普查,已經(jīng)取得了所有個體數(shù)據(jù)和總體的實際分布,這也是為什么人類開始懂得計數(shù)就開始進(jìn)行普查。抽樣調(diào)查是利用抽樣理論解決如何科學(xué)設(shè)計樣本,取得樣本個體數(shù)據(jù),并科學(xué)地推斷總體分布及特征。無論是普查還是抽樣調(diào)查,其核心問題之一是要取得準(zhǔn)確的“個體數(shù)據(jù)”。但在大數(shù)據(jù)時代,一切皆可量化,一切皆可記錄,如何利用更全面、更及時、更經(jīng)濟(jì)的網(wǎng)絡(luò)電子化數(shù)據(jù),以及通過對這些數(shù)據(jù)使用新的分析及挖掘技術(shù),產(chǎn)生新的見解和認(rèn)識,是我們面臨的重大機(jī)遇。

大數(shù)據(jù)和統(tǒng)計思維與方法等有明顯的不同,主要表現(xiàn)在以下八個方面:

一是“問題驅(qū)動”與“數(shù)據(jù)驅(qū)動”。收集數(shù)據(jù)是開展統(tǒng)計分析的前提,傳統(tǒng)的普查或抽樣調(diào)查是先確定普查或調(diào)查目的,然后再根據(jù)目的相應(yīng)要求和經(jīng)費確定普查或調(diào)查的方法和樣本量的大小。也就是說,傳統(tǒng)統(tǒng)計方法設(shè)計是針對研究問題而收集數(shù)據(jù),提出假設(shè),再進(jìn)行統(tǒng)計檢驗和推斷。這種用有限數(shù)據(jù)驗證先驗假定,通常是基于分布理論,以一定的概率為保證,其邏輯關(guān)系是“分布理論-概率保證-總體推斷”。而大數(shù)據(jù)強(qiáng)調(diào)的是全體數(shù)據(jù),總體特征一般不再需要根據(jù)分布理論進(jìn)行推斷。不僅如此,還可以根據(jù)全面數(shù)據(jù)和實際分布來判斷其中出現(xiàn)某類情況的可能性有多大,其邏輯關(guān)系變成了“實際分布-總體特征-概率判斷”,也即概率不再是事先預(yù)設(shè),而是基于實際分布得出的判斷。在大數(shù)據(jù)時代,由于有足夠的數(shù)據(jù),足夠的變量,可以采用人工智能等來進(jìn)行數(shù)據(jù)挖掘和知識發(fā)現(xiàn),廣泛開展各種探索性研究,其結(jié)論與發(fā)現(xiàn)是通過數(shù)據(jù)分析獲得的,也就是數(shù)據(jù)驅(qū)動,用數(shù)據(jù)決策和用數(shù)據(jù)創(chuàng)新。

二是“我問你答”與“我取你有”。統(tǒng)計報表、調(diào)查問卷是目前全世界開展普查、調(diào)查收集數(shù)據(jù)的主要載體。這種方式是通過結(jié)構(gòu)化的報表將被調(diào)查對象的行為轉(zhuǎn)化為可用的數(shù)據(jù),這種方式的根本特征“我問你答”,需要被調(diào)查者高度配合,包括對問題的正確理解和如實回答填報,否則,數(shù)據(jù)質(zhì)量難以保證。但在“大數(shù)據(jù)”時代,數(shù)據(jù)來源于信息技術(shù)記錄下的原始數(shù)據(jù),這些數(shù)據(jù)的參與僅僅依賴于測量方法(如企業(yè)生產(chǎn)記錄、大量行政記錄、GPS定位測量、超市收銀管理系統(tǒng)、ETC電子收費系統(tǒng)),充分利用電子記錄大數(shù)據(jù)為政府統(tǒng)計所用,采用“我取你有”的方式,取得更及時、真實的原始數(shù)據(jù),由專業(yè)統(tǒng)計人員根據(jù)統(tǒng)計制度計算統(tǒng)計指標(biāo)數(shù)據(jù),也減少了統(tǒng)計調(diào)查和報表整理的中間環(huán)節(jié),數(shù)據(jù)質(zhì)量將會大大提高。

三是“因果聯(lián)系”與“相關(guān)分析”。傳統(tǒng)統(tǒng)計主要通過建立模型探求變量之間的因果關(guān)系,并基于模型對因變量進(jìn)行預(yù)測,即預(yù)先假定事物之間存在某種因果關(guān)系,然后在此假定的基礎(chǔ)上構(gòu)建模型并驗證假定存在的因果關(guān)系。存在的問題往往是,變量間的因果關(guān)系具有時效性,存在“此一時,彼一時”的情況,是在特殊條件和前提假定下的關(guān)系,結(jié)論的時效性與適用性較為有限。而相關(guān)關(guān)系具有更加普遍和本質(zhì)的內(nèi)涵,有因果關(guān)系必有相關(guān)關(guān)系,有相關(guān)關(guān)系未必有因果關(guān)系。在大數(shù)據(jù)背景下,數(shù)據(jù)分析不再探求特定條件下確定性很強(qiáng)的因果關(guān)系,而是更加關(guān)注普遍意義的相關(guān)關(guān)系。從超大量數(shù)據(jù)中發(fā)現(xiàn)各種真實存在的相關(guān)關(guān)系,更加直觀、更貼近個體、更容易被理解和接受,可以發(fā)現(xiàn)事物發(fā)展?jié)撛诘囊?guī)律,具有一定的“智能性”,某種程度上超越了傳統(tǒng)統(tǒng)計研究的因果關(guān)系,因此,相關(guān)分析是大數(shù)據(jù)時代的重要工作。

四是“樣本抽選”與“總體描述”。以統(tǒng)計推斷為主要特征的現(xiàn)代統(tǒng)計學(xué)研究主要內(nèi)容是不斷改進(jìn)樣本抽樣方法和參數(shù)設(shè)計,從而對總體的特征進(jìn)行描述。囿于數(shù)據(jù)收集以及客觀條件的限制,總是希望通過盡可能少的樣本來了解總體。在這種背景下,產(chǎn)生了各式各樣的抽樣調(diào)查技術(shù)和參數(shù)估計方法。在分層情況下,樣本的數(shù)量往往不能有效地減少。大數(shù)據(jù)時代,樣本就是被記錄的所有數(shù)據(jù),從這個意義上講,樣本就是總體。通過對所有與事物相關(guān)的數(shù)據(jù)進(jìn)行分析,既有利于了解總體,又有利于了解局部細(xì)微??偟膩碇v,傳統(tǒng)的統(tǒng)計抽樣調(diào)查方法存在的不足可以在大數(shù)據(jù)時代得到改進(jìn)。大數(shù)定律告訴我們,隨著樣本數(shù)量的增加,樣本平均數(shù)越來越接近總體,而大數(shù)據(jù)已經(jīng)描述了總體信息。

五是“數(shù)據(jù)煙囪”與“數(shù)據(jù)平臺”。長期以來,我國政府統(tǒng)計是以部門為中心展開的,相互隔離形成了行業(yè)垂直的信息化體系,在地方上形成了條塊分割的“信息孤島”,形成一個個“數(shù)據(jù)煙囪”,數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一,數(shù)據(jù)指標(biāo)不規(guī)范,數(shù)據(jù)平臺重復(fù)建設(shè)。大數(shù)據(jù)特別是與之相關(guān)聯(lián)云計算,為信息整合提供了新的契機(jī),有助于建立政府信息共享數(shù)據(jù)平臺,提高政府行為的透明度,有效提高政府的公信力,以大數(shù)據(jù)助推政府決策科學(xué)化。大數(shù)據(jù)的應(yīng)用將改變政府統(tǒng)計部門的工作模式,整合現(xiàn)有的分散于各職能部門中的“行政記錄”,完善多種信息來源的數(shù)據(jù)采集制度,實現(xiàn)工商、質(zhì)監(jiān)、勞動、人社等部門的數(shù)據(jù)注冊、查詢、共享和交換,在一個數(shù)據(jù)平臺(包括標(biāo)準(zhǔn)、指標(biāo)、數(shù)據(jù)庫等),能夠揭示傳統(tǒng)技術(shù)方式難以展現(xiàn)的關(guān)聯(lián)關(guān)系,為有效處理復(fù)雜社會問題提供新的手段,有助于建立現(xiàn)代化的政府統(tǒng)計調(diào)查體系,最大限度地發(fā)掘這些數(shù)據(jù)資源的價值,提高政府統(tǒng)計部門的生產(chǎn)力,建立“用數(shù)據(jù)說話、用數(shù)據(jù)決策、用數(shù)據(jù)管理、用數(shù)據(jù)創(chuàng)新”的管理體制機(jī)制,提升政府治理能力。

六是“以小見大”與“以大見小”。統(tǒng)計學(xué)是關(guān)于數(shù)據(jù)的科學(xué),統(tǒng)計是研究結(jié)構(gòu)化“小數(shù)據(jù)”,其優(yōu)勢在于“以小見大”,通過設(shè)計抽取個體樣本數(shù)據(jù)進(jìn)而分析推斷總體特征。大數(shù)據(jù)的優(yōu)勢在于“以大見小”,通過對各種來源各種結(jié)構(gòu)數(shù)據(jù)(特別是各種電子網(wǎng)絡(luò)數(shù)據(jù))實時進(jìn)行整合、量化、關(guān)聯(lián)、識別等,發(fā)現(xiàn)其個體特征,進(jìn)而對總體進(jìn)行任意細(xì)分的描述。

七是“記錄歷史”與“預(yù)測未來”。德國統(tǒng)計學(xué)家斯勒茲曾說過:“統(tǒng)計是動態(tài)的歷史,歷史是靜態(tài)的統(tǒng)計。”這是在300多年前說的,也揭示了統(tǒng)計的基本功能,那就是記錄歷史。這當(dāng)然是非常重要的,也是預(yù)測的基礎(chǔ)。統(tǒng)計預(yù)測就是利用歷史數(shù)據(jù)建模、外推進(jìn)行預(yù)測,這里包含了一個假定的前提,就是未來的發(fā)展趨勢是按照歷史數(shù)據(jù)呈現(xiàn)的規(guī)律變化的,或者在對未來可能的選擇,改變參數(shù)進(jìn)行人為的調(diào)整。這種預(yù)測方法和思路,對于今天快速變化發(fā)展的社會經(jīng)濟(jì)狀況,特別是很多不可預(yù)測的突發(fā)事件的影響,顯然是不適應(yīng)的。技術(shù)與創(chuàng)新成為時代的主題,新產(chǎn)業(yè)、新業(yè)態(tài)、新模式等新經(jīng)濟(jì)層出不窮,未來的經(jīng)濟(jì)發(fā)展不能完全用歷史的模式來描述,這也要求有新的預(yù)測方法。大數(shù)據(jù)時代,各種傳感器和網(wǎng)絡(luò)設(shè)施遍布社會的各個角落,而這些數(shù)據(jù)是實時的、動態(tài)的,具有“零延遲”、即時性等特點,采用智能計算、實時計算等方法,極大地提高了數(shù)據(jù)的時效性和預(yù)測質(zhì)量。特別是,隨著電子商務(wù)、互聯(lián)網(wǎng)金融、社交網(wǎng)絡(luò)等的飛速發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為人們生產(chǎn)生活不可或缺的重要場所。人們在互聯(lián)網(wǎng)上購物、交流、搜索、瀏覽的各種行為所產(chǎn)生的數(shù)據(jù)量越來越大。這些數(shù)據(jù)記錄人們搜索內(nèi)容、搜索頻率以及位置等信息,反映了人們社會經(jīng)濟(jì)活動、心理活動、情感取向、個體需求、興趣關(guān)注等,未來的變化趨勢,體現(xiàn)在今天人們的行為中。

八是“歸納推斷”與“演繹推理”。統(tǒng)計研究的任務(wù)就是為了發(fā)現(xiàn)新的知識,歸納法則是發(fā)現(xiàn)新知識的基本方法。因此,歸納推斷法成為最主要的統(tǒng)計研究方法,使得我們能夠從足夠多的個體信息中歸納出關(guān)于總體的特征。對于大數(shù)據(jù),依然要從中去發(fā)現(xiàn)新的知識,依然要通過具體的個體信息去歸納出一般的總體特征,因此歸納法依然是大數(shù)據(jù)分析的主要方法。大數(shù)據(jù)是一個信息寶庫,僅僅重視一般特征的歸納與概括是不夠的,還需要分析研究子類信息乃至個體信息,以及某些特殊的、異常的信息——或許它(們)代表著一種新生事物或未來的發(fā)展方向,還需要通過已掌握的分布特征和相關(guān)知識與經(jīng)驗去推理分析其他更多、更具體的規(guī)律,去發(fā)現(xiàn)更深層次的關(guān)聯(lián)關(guān)系,去對某些結(jié)論做出判斷,這就需要運用演繹推理法。演繹法可以充分利用已有的知識去認(rèn)識更具體、細(xì)小的特征,形成更多有用的結(jié)論。只要歸納法與演繹法結(jié)合得好,就既可以從大數(shù)據(jù)的偶然性中發(fā)現(xiàn)必然性,又可以利用全面數(shù)據(jù)的必然性去觀察偶然性、認(rèn)識偶然性、甚至利用偶然性,從而提高駕馭事物發(fā)展的能力。

新的起點

用數(shù)據(jù)說話,已經(jīng)成為現(xiàn)代社會的基本理念。中國古代的管仲說過:“不明于計數(shù)而欲舉大事,猶無舟楫而欲經(jīng)于水險也。”著名經(jīng)濟(jì)學(xué)家馬寅初曾說:“學(xué)者們不能離開統(tǒng)計而究學(xué),政治家不能離開統(tǒng)計而施政,事業(yè)家不能離開統(tǒng)計而執(zhí)業(yè)。”美國管理學(xué)家、統(tǒng)計學(xué)家戴明說:“除了上帝,任何人都必須用數(shù)據(jù)來說話。”印度統(tǒng)計學(xué)家C.R.RAO表示:“理性來講,人們的行為過程就是統(tǒng)計。”這些都說明了統(tǒng)計的重要性。

大數(shù)據(jù)時代為統(tǒng)計提供了大舞臺,統(tǒng)計將為大數(shù)據(jù)添上翅膀。大數(shù)據(jù)時代的來臨,帶來新的機(jī)遇。我們要真正站在同一起跑線上了,以開放的態(tài)度、創(chuàng)新的勇氣、不懈的努力抓住歷史賦予的機(jī)會。古代結(jié)繩計數(shù)能夠記錄下的數(shù)據(jù)與今天海量存儲器記錄下的數(shù)據(jù)本質(zhì)上是一樣的,不同的是,古代人知道他們養(yǎng)了多少牛羊、知道每人分多少,但記錄不下來;而今天,我們可以記錄一切,但傳統(tǒng)處理分析能力還不能完全知道這些海量數(shù)據(jù)中蘊含的規(guī)律和見解,這是統(tǒng)計的新戰(zhàn)場,也是統(tǒng)計人要努力探尋的新領(lǐng)域。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號