大數(shù)據(jù):是福不是禍,是禍躲不過

責(zé)任編輯:editor004

2014-05-14 17:34:10

摘自:論壇

我們經(jīng)常得到一些用戶的消費(fèi)或者娛樂行為,但是這些行為可能是病態(tài)的。根據(jù)數(shù)學(xué)中的大數(shù)定律,樣本數(shù)量和范圍需要超過一定程度才能得到有價(jià)值的統(tǒng)計(jì)規(guī)律,樣本的數(shù)量和范圍取決于模型本身的復(fù)雜度。

一、統(tǒng)計(jì)現(xiàn)象可能是病態(tài)的;

我們經(jīng)常得到一些用戶的消費(fèi)或者娛樂行為,但是這些行為可能是病態(tài)的。這里我就舉兩個(gè)病態(tài)的習(xí)慣現(xiàn)象作為例子說明。有些用戶具有一種病態(tài)的消費(fèi)習(xí)慣,習(xí)慣于同時(shí)消費(fèi)一定數(shù)量的產(chǎn)品,或者某種特定的產(chǎn)品組合。比如,有些肥胖癥病人,喜歡吃高熱量食品,當(dāng)然就喜歡看到高熱量食品擺放在一起,但是這樣就無形中鼓勵(lì)了對這些用戶的不良消費(fèi)習(xí)慣。另一個(gè)例子是網(wǎng)絡(luò)文學(xué)?,F(xiàn)在的網(wǎng)絡(luò)文學(xué)可算是世界奇觀,大量的穿越,意淫小說充斥網(wǎng)絡(luò)。我喜歡看電子書,可是從網(wǎng)上很難看到像樣的新書可以閱讀,大多數(shù)還是從正規(guī)出版社進(jìn)行購買紙質(zhì)書閱讀。這種一味迎合特定讀者群的網(wǎng)絡(luò)文學(xué)現(xiàn)象,相當(dāng)程度上進(jìn)一步惡化了當(dāng)前的教育生態(tài)。那些網(wǎng)絡(luò)文學(xué)只會傷害青少年的閱讀品味,甚至走上犯罪的道路。當(dāng)我們看到了一種統(tǒng)計(jì)現(xiàn)象,我們僅僅是看到了當(dāng)前的一種規(guī)律,但是這種規(guī)律是否是病態(tài)的,還是要進(jìn)一步分析,我們不能因?yàn)榭梢岳眠@種規(guī)律掙錢,就可以推波助瀾。

二、統(tǒng)計(jì)現(xiàn)象可能是暫時(shí)的;

中國是在快速發(fā)展的過程中,由于歷史的原因和社會發(fā)展的階段性原因,很容易出現(xiàn)一窩蜂的現(xiàn)象,統(tǒng)計(jì)規(guī)律有時(shí)候表現(xiàn)的非常明顯。這給我們一個(gè)假象,認(rèn)為這可能是社會發(fā)展的未來趨勢。但是我們忽視了中國社會的特殊性,這種特殊性在于很多消費(fèi)習(xí)慣是一種補(bǔ)償性消費(fèi)習(xí)慣,而對于補(bǔ)償性消費(fèi)心理來說,可能是過度夸張的。比如,飲酒的習(xí)慣,在中國過去,飲酒僅僅是生活中很奢侈的一部分,因此飲酒的習(xí)慣對于身體的影響并不很大,但是現(xiàn)在物質(zhì)豐富了,人們還按照過去的習(xí)慣進(jìn)行飲酒,但是數(shù)量大大增加了,于是身體的健康受到的非常大的影響。最近我的一些朋友們陸續(xù)開始戒酒,因?yàn)樗麄円呀?jīng)發(fā)現(xiàn),原來認(rèn)為是友好的表現(xiàn),現(xiàn)在可能被認(rèn)為是不禮貌的,比如勸酒。還有就是房地產(chǎn)和汽車消費(fèi)。除了投資和投機(jī)心理之外,中國人對于房子有著獨(dú)特的熱忱,其原因在于中國人還從來沒有真正擺脫居住的窘迫,于是大家都非??释凶约旱淖》俊F囈惨粯?,這是補(bǔ)償性消費(fèi)的過度行為表現(xiàn)。假如我們?nèi)ビ线@種暫時(shí)的現(xiàn)象,我們會助推一些病態(tài)行為,導(dǎo)致社會成本急劇上升,尤其是整體資本成本更為夸張。

三、統(tǒng)計(jì)現(xiàn)象可能是局部的;

有時(shí)候去吃飯,朋友會通過網(wǎng)上預(yù)訂,但是去吃了之后往往不如意。其主要原因在于,統(tǒng)計(jì)數(shù)據(jù)的來源并不是全部消費(fèi)人群。喜歡上網(wǎng)的人群是受限制的,上網(wǎng)又喜歡點(diǎn)評的人更是其中一些樂于此事的人,他們并不能代表所有的消費(fèi)群體。比如,喜歡點(diǎn)評吃飯的人,往往是學(xué)生和年輕的職工,他們收入少,好奇心重,因此對于這種既便宜又能品嘗到一定品味的信息來源比較喜歡,這種統(tǒng)計(jì)結(jié)果對于其他人群可能就完全沒有參考價(jià)值。還比如,網(wǎng)上有些投票活動,其結(jié)果的不可靠跟吃飯的效果一樣。我們不能說網(wǎng)上的統(tǒng)計(jì)結(jié)果沒有意義,但是也不能夸大這種只有部分代表性的結(jié)果,否則我們可能會被誤導(dǎo)。想到前段時(shí)間那些惡意的大V們被封殺,也是類似的現(xiàn)象。之所以大V們有一定的市場,還是因?yàn)槲覀內(nèi)鄙賹τ诰W(wǎng)絡(luò)輿論的全面認(rèn)識。聽到一些號稱鼎鼎大名的一些網(wǎng)絡(luò)名人,我也覺得自己有點(diǎn)OUT了,因?yàn)樽鳛榻?jīng)常使用網(wǎng)絡(luò),并且自認(rèn)為不那么落伍的人,居然從來就沒有注意到這些人。

四、統(tǒng)計(jì)現(xiàn)象可能是曲解的;

很多統(tǒng)計(jì)現(xiàn)象需要進(jìn)一步解釋,而不能看直接的結(jié)果,這些統(tǒng)計(jì)結(jié)果很多都存在誤讀現(xiàn)象。有個(gè)例子能夠很好地證明。英國二戰(zhàn)時(shí)期跟德國進(jìn)行空戰(zhàn),每次戰(zhàn)斗機(jī)回來都發(fā)現(xiàn),機(jī)翼上有很多槍眼,大多數(shù)工程師認(rèn)為機(jī)翼是很容易受到攻擊的地方,需要進(jìn)行防護(hù),可是增加了防護(hù)之后,發(fā)現(xiàn)飛機(jī)的損失率并沒有降低,反而提高了,因?yàn)樵黾恿朔雷o(hù),降低了飛機(jī)的靈活性和航程。原來是曲解了那個(gè)統(tǒng)計(jì)規(guī)律,因?yàn)樵趹?zhàn)損的飛機(jī)里面,有許多飛機(jī)沒有回來,其被擊落的真正原因并沒有被統(tǒng)計(jì),因此主要問題沒有發(fā)現(xiàn)。相反,機(jī)翼受損還能飛回來,只能說明機(jī)翼被攻擊部分本身的影響并不大。“統(tǒng)計(jì)學(xué)家 Wald 建議統(tǒng)計(jì)飛機(jī)上彈孔(槍眼)的位置,有了足夠的樣本后,然后在沒有槍眼的部位加強(qiáng)防護(hù),因?yàn)檫@些部位被擊中的飛機(jī)都沒有返航,最后效果很好”(參考第三樓發(fā)言補(bǔ)充)。這個(gè)統(tǒng)計(jì)結(jié)果是不可信的,至少不是最重要的因素。

大數(shù)據(jù)

五、統(tǒng)計(jì)現(xiàn)象可能是濫用的。

根據(jù)數(shù)學(xué)中的大數(shù)定律,樣本數(shù)量和范圍需要超過一定程度才能得到有價(jià)值的統(tǒng)計(jì)規(guī)律,樣本的數(shù)量和范圍取決于模型本身的復(fù)雜度??墒窃诂F(xiàn)實(shí)中,即便是在很嚴(yán)格的科學(xué)研究領(lǐng)域,統(tǒng)計(jì)被濫用的現(xiàn)象處處存在。大多數(shù)情況下可能是如下景象,一個(gè)科研人員或者工作人員,得到了一批樣本,根據(jù)自己的模型或者理論假設(shè)進(jìn)行簡單的統(tǒng)計(jì)分析,不管是定量的還是定性的,得到一個(gè)結(jié)果,于是結(jié)論就出爐了,甚至發(fā)表在了影響因子很高的雜志上??墒蔷臀叶嗄陙韰⒓舆^的答辯會或者成果介紹的過程來看,相當(dāng)數(shù)量的結(jié)果是不可靠的,甚至沒有參考價(jià)值,因?yàn)槟切颖緮?shù)量少的可憐。比如,對于一個(gè)復(fù)雜現(xiàn)象,就用幾十個(gè)樣本做一個(gè)復(fù)雜的結(jié)論,這就充滿了風(fēng)險(xiǎn),沒有檢驗(yàn)過程,沒有驗(yàn)證過程,這些結(jié)果可能會大大誤導(dǎo)我們對于自然的認(rèn)識。另外,在統(tǒng)計(jì)結(jié)果分析的過程中,人為的選擇樣本,人為的改造樣本,這些例子已經(jīng)屢見不鮮。

根據(jù)上述觀察,即便我們進(jìn)入了大數(shù)據(jù)時(shí)代,意識到數(shù)據(jù)對于決策的重要性,這是好事,但是如果不能意識到數(shù)據(jù)本身帶來的種種問題,那就無從談起如何使用。即便是統(tǒng)計(jì)結(jié)果有一定的參考價(jià)值,我們也不能一味的迎合這些所謂的習(xí)慣和趨勢,因?yàn)檫@些習(xí)慣和趨勢可能將我們引入一個(gè)不可持續(xù)的發(fā)展過程。從國家層面鼓勵(lì)科學(xué)使用大數(shù)據(jù)結(jié)果的研究是非常必要的。個(gè)人或者商業(yè)團(tuán)體往往會傾向于自我或者本組織的利益,不大會真正從社會總成本和總的發(fā)展健康度角度看問題。這些負(fù)面影響的研究是一種公益事業(yè),只能是政府牽頭來主導(dǎo),并且有意識的引導(dǎo)這種現(xiàn)象。對于一些沒有經(jīng)過科學(xué)驗(yàn)證的統(tǒng)計(jì)結(jié)果進(jìn)行甄別和檢驗(yàn)。但當(dāng)我們看到一種規(guī)律或者現(xiàn)象,我們能夠科學(xué)的判斷這種規(guī)律是否為病態(tài)的,還是暫時(shí)的,還是局部的,還是被曲解的,還是被濫用的結(jié)果,是非常必要的。在當(dāng)前迎合為主的情況下,不會有好的結(jié)果,在大多數(shù)情況下,統(tǒng)計(jì)結(jié)果可能給我們帶來的不是商業(yè)機(jī)會,而是危險(xiǎn)的前兆。誤導(dǎo)性的統(tǒng)計(jì)結(jié)果甚至?xí)鸩槐匾纳鐣睦戆凳?,從而產(chǎn)生嚴(yán)重的社會大眾效果。也許大數(shù)據(jù)統(tǒng)計(jì)分析的第三方檢驗(yàn)會是未來的一個(gè)很重要的商業(yè)機(jī)會。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號