有了大數(shù)據(jù),我們直接從數(shù)據(jù)里面就得出來很多奇妙的結(jié)論。例如@楊宣 指出的,在「不通過」這個分類之下,qq 郵箱是概率排名前五的強(qiáng)特征。這就是「大數(shù)據(jù)時代」(或者其它各種各樣類型的「實(shí)證研究」)為我們解決的一個問題——至少 HR 們篩掉 qq 郵箱在統(tǒng)計的意義上是有些理性依據(jù)的。
但是是不是有什么東西被我們錯過了呢?
今年暑假的某一天,我聽一個我很尊重的老師批評了目前在做復(fù)雜系統(tǒng)有關(guān)問題時,主要基于統(tǒng)計的那些研究者,他們做出來的一些東西。我們都知道現(xiàn)在做這些問題的研究者可以發(fā)表很多很好的文章,但是這些文章缺少了某些東西。
以往,如果我寫了一篇論文,發(fā)現(xiàn)某個結(jié)論,并且在文中提出得出這個結(jié)論可能的一個原因,甚至提出來一個數(shù)學(xué)模型,這個模型可以解釋我從數(shù)據(jù)分析中得到的那個結(jié)論。要是把我寫的這篇文章投稿到比較好的期刊,審稿人必然會提意見——你提出了一種產(chǎn)生這個結(jié)論的原因,可是你怎樣排除掉其它的原因呢?如果你不能排除掉其它的因素的影響,那我們很遺憾只能拒絕掉你的文章了。
在大數(shù)據(jù)時代,審稿人們還能以此為理由拒絕掉別人的文章嗎?這些數(shù)據(jù)這么珍貴,甚至有的是從運(yùn)營商、航空公司、網(wǎng)站和志愿者處花費(fèi)了金錢和時間才得到的,提出這樣的一個解釋就已經(jīng)很好了……可是我們很可能會距離理解各種問題越來越遠(yuǎn)。在大數(shù)據(jù)時代,通過各種統(tǒng)計的方法,我們可以得到許多有意思的結(jié)論,但是這些結(jié)論不能讓我們心安。
就像「用 qq 郵箱的求職者很可能有著較低的簡歷質(zhì)量」也可能會是一個從大數(shù)據(jù)分析得到的結(jié)果,可是我們不會知道為什么會這樣。公開這些結(jié)論,甚至可能招致他人的批評。每個人可能有不同的看法,也會自己提出對這個問題的解釋,即每個人都會對這個結(jié)論提出自己的「模型」,并把自己的「模型」跟這個結(jié)論等價起來。如果「模型」不能排除其它因素的影響,那么你可以提出你的理論來解釋這個問題,而我也可以提出我的模型來解釋這個結(jié)論,我們最終會無法說服他人。遺憾的是,正因?yàn)槲覀兊慕Y(jié)論來自大數(shù)據(jù),很多時候我們很難再找出「對照實(shí)驗(yàn)」的那些數(shù)據(jù)了,雜志社沒有辦法說「如果你能排除掉其它的因素的影響,我們就發(fā)表你的文章」。我們很可能會距離「為什么」越來越遠(yuǎn)。
一個好的數(shù)學(xué)模型具備以下三點(diǎn):
1. 描述性;
2. 預(yù)測性;
3. 說明性。
具體地說就是,一個好的數(shù)學(xué)模型能描述建模基于的系統(tǒng),并且對其做出預(yù)測,同時能解釋為什么這么建模以及建模得出的結(jié)論。
針對以上三點(diǎn),我們來看看數(shù)據(jù)和模型的區(qū)別。首先數(shù)據(jù)可以說是具有描述性,但僅是局部描述性,除非給出的數(shù)據(jù)能遍歷每一種情況,而數(shù)學(xué)模型則具有全局描述性。其次,數(shù)據(jù)的預(yù)測性表現(xiàn)在可以通過數(shù)據(jù)建立模型,來給出預(yù)測結(jié)果。最后,好的數(shù)學(xué)模型能明確解釋數(shù)據(jù)的走向,但光看數(shù)據(jù)你只能知道數(shù)據(jù)是怎么變化的,但不知道為什么這么變。
在我看來,建模和數(shù)據(jù)是相輔相成的,針對一個問題,建模是將其抽象到純數(shù)學(xué)層面以尋求普適的解決方法與結(jié)論,數(shù)據(jù)是用來驗(yàn)證建模的結(jié)論,或者是輔助求解模型的(比如有些固定參數(shù)需要通過具體的實(shí)驗(yàn)或者觀測數(shù)據(jù)來確定)。當(dāng)然,只有用在好模型上,數(shù)據(jù)才會顯得有意義。
最后,如果數(shù)學(xué)建模真的因?yàn)榇髷?shù)據(jù)而沒用了,那也不會有那么多應(yīng)用數(shù)學(xué)家還在探討關(guān)于數(shù)學(xué)建模的問題了。
而如果把「大數(shù)據(jù)」和「數(shù)學(xué)模型」對立起來,則這里所說的「模型」便是另一碼事了。這里的「模型」與「機(jī)制」「假設(shè)」「簡化」等等更接近。有了「模型」,我們就可以從「純粹理性」而非「實(shí)踐理性」的高度讓你心安。就像每個 HR 都可以提出無數(shù)個討厭 qq 郵箱求職者的理由,只可惜,這些模型都是你個人的角度,大家攻擊起來實(shí)在容易。我們或許會越來越難摒棄掉這些偏見,因?yàn)闆]有一個可以讓大家都相信的「理論」(或者「模型」)。我們只知道結(jié)論。
這時候,如果你是天才的建模者,提出一個能被大家公認(rèn)的模型,并排除掉其它也可能造成這一現(xiàn)象的干擾因素,那就是真正的大神了。我比較悲觀,因?yàn)槲易约阂矔趯?shí)用的結(jié)論面前滿足。