大數(shù)據(jù): 一種新經(jīng)驗主義方法

責任編輯:王李通

作者:文繼榮 商爍

2015-06-22 09:51:31

摘自:經(jīng)濟日報

在傳統(tǒng)的理性主義方法中,由于只掌握小樣本數(shù)據(jù),人們通常基于小樣本數(shù)據(jù)構(gòu)建模型并將其泛化,進而解決新的問題。就是說,遇到數(shù)據(jù)不能完全覆蓋的情況,還是需要借助模型的泛化能力進行處理,將已知經(jīng)驗推廣到數(shù)據(jù)未能覆蓋的地方。

當今世界,“大數(shù)據(jù)”已成為一個熱點話題,學術(shù)界和產(chǎn)業(yè)界都試圖在該領(lǐng)域取得突破。何為大數(shù)據(jù)?這是在充分收集、整理和分析歷史經(jīng)驗數(shù)據(jù)的基礎上,運用已有經(jīng)驗對新事物進行判斷與預測的新興思維和方法。

在人類傳統(tǒng)的思維、行為模式中,受數(shù)據(jù)收集的歷史條件局限,所謂理性主義長期占據(jù)主導地位,即:通過長期觀察和經(jīng)驗的積累,人類能透過現(xiàn)象看到本質(zhì),從而總結(jié)出事物發(fā)展的一般規(guī)律。具體說來,便是從有限數(shù)據(jù)中抽象出一般規(guī)律和模型,將泛化有限經(jīng)驗推廣到一般情況。所以說,理性主義方法就是模型方法。然而,由各方參與和博弈的人類社會復雜紛繁,人們并非總能從有限經(jīng)驗中抽象出一般規(guī)律,也難以處處用理性分析方法建立模型。

隨著信息科學技術(shù)的高速發(fā)展,人類對數(shù)據(jù)的收集和分享能力空前強大,包括以物聯(lián)網(wǎng)收集物理世界數(shù)據(jù),以互聯(lián)網(wǎng)收集虛擬世界數(shù)據(jù),以移動設備收集個人數(shù)據(jù)等等。從某種意義上來講,這也是對人類經(jīng)驗的收集和分享。當數(shù)據(jù)達到一定的深度和廣度,量變就會發(fā)生質(zhì)變,我們發(fā)現(xiàn):數(shù)據(jù)(經(jīng)驗)越多,對模型(理性)的依賴程度越小。于是,一種基于大數(shù)據(jù)的新的經(jīng)驗主義方法迅速興起,很快獲得社會廣泛認可并運用到諸多領(lǐng)域。

在傳統(tǒng)的理性主義方法中,由于只掌握小樣本數(shù)據(jù),人們通?;谛颖緮?shù)據(jù)構(gòu)建模型并將其泛化,進而解決新的問題。顯然,若待解決的問題與小樣本差別過大,這種模型就會失效。相比之下,大數(shù)據(jù)的特點是省略復雜的模型,直接尋求面臨情況與已知樣本的匹配。其核心就是盡可能多地收集樣本,構(gòu)建足夠大的樣本數(shù)據(jù)庫來覆蓋所有可能遇到的情況,令每種情況總能找到一個或多個相同或相近的樣本,從而運用老經(jīng)驗解決新問題。

也可以這樣比喻:傳統(tǒng)方法是個理性主義者,“他”循規(guī)蹈矩,有很強的邏輯思維和歸納能力,能夠通過小樣本建立模型、總結(jié)規(guī)律;“大數(shù)據(jù)”則是經(jīng)驗主義者,“他”不是科班出身,但實踐經(jīng)驗豐富,頭腦包羅萬象卻有條不紊,遇到難題總能迅速找出以往經(jīng)驗與之應對。規(guī)范地說,“大數(shù)據(jù)是現(xiàn)代社會在掌握海量數(shù)據(jù)收集、存儲和處理技術(shù)基礎上所產(chǎn)生的一種以群體智慧進行判斷和預測的能力,它代表了一種新的經(jīng)驗主義思想和方法。”

那么,多大的數(shù)據(jù)才是大數(shù)據(jù)呢?目前,這個問題沒有絕對的答案。不妨這樣回答:“當數(shù)據(jù)多到能對問題的樣本空間進行充分覆蓋,從而減弱對理論和模型的依賴時,這樣的數(shù)據(jù)就足夠大了。”實際上,數(shù)據(jù)之“大”與問題的規(guī)模成正比,即:若問題的規(guī)模小,少量數(shù)據(jù)即能覆蓋全部情況,這些數(shù)據(jù)已構(gòu)成具體環(huán)境的“大數(shù)據(jù)”;反之,若問題的樣本空間大,則需要更多數(shù)據(jù)才能將其完全覆蓋。

既然大數(shù)據(jù)體現(xiàn)著先進的新經(jīng)驗主義,在實踐中展現(xiàn)巨大價值并逐漸成為社會主流,那么傳統(tǒng)的理性主義難道就要退出歷史舞臺了嗎?回答是否定的。

首先,人類社會的不少問題樣本空間極大,數(shù)據(jù)雖盡力收集卻總是不夠,即總是不能覆蓋所有可能的情況。以不同語言之間的機器翻譯為例:從一種語言翻譯為另一種語言,其樣本空間需囊括所有可能出現(xiàn)的詞句,而對這樣的樣本空間進行全面覆蓋則需收集幾乎無窮盡的數(shù)據(jù)。由于不能實現(xiàn)全面覆蓋,即使收集數(shù)據(jù)再多,也很難說這就是“大數(shù)據(jù)”。

其次,萬物都處在運動當中,一成不變的事物是難以想象的。具體到某一社會問題的樣本空間,“不變”是相對的,“變”是絕對的,像自然領(lǐng)域的氣象數(shù)據(jù)、人文領(lǐng)域的人口數(shù)據(jù),甚至是時刻在變化著。又如,互聯(lián)網(wǎng)上新的詞語層出不窮,有時令人難以理解,而已知數(shù)據(jù)中根本沒有相似的樣本,當然無法直接運用大數(shù)據(jù)的方法進行處理。

因此,將大數(shù)據(jù)(經(jīng)驗主義)和傳統(tǒng)方法(理性主義)結(jié)合起來、綜合運用,才是順利解決社會問題的明智選擇。就是說,遇到數(shù)據(jù)不能完全覆蓋的情況,還是需要借助模型的泛化能力進行處理,將已知經(jīng)驗推廣到數(shù)據(jù)未能覆蓋的地方。

鏈接已復制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號