大數(shù)據(jù)重啟,美國大選動搖統(tǒng)計學(xué)根基

責(zé)任編輯:editor004

作者:馬繼華

2017-02-02 12:05:34

摘自:搜狐IT

歷史驚人的相似,一次大選,傳統(tǒng)的市場調(diào)查出現(xiàn)了嚴(yán)重的差錯,這一次,統(tǒng)計調(diào)查理論很可能會發(fā)生明顯的變化。2016年的美國大選,再次讓大數(shù)據(jù)成為了熱點,因為來自中國加工制造的特朗普與希拉里的面具數(shù)量早已透露了玄機(jī)。

歷史驚人的相似,一次大選,傳統(tǒng)的市場調(diào)查出現(xiàn)了嚴(yán)重的差錯,這一次,統(tǒng)計調(diào)查理論很可能會發(fā)生明顯的變化。

在此之前,還有很多人在堅持通過傳統(tǒng)統(tǒng)計的方式來進(jìn)行市場調(diào)查,準(zhǔn)確性絕對會符合科學(xué)理論,也比大數(shù)據(jù)的“蘿卜快了不洗泥”要精確。事實可能是這樣的,但大數(shù)據(jù)給了我們更新的一個時代的最佳選擇。

很多人把自己掌握的數(shù)據(jù)就成為大數(shù)據(jù),因為自己的數(shù)據(jù)比較大,擁有數(shù)十百千萬P的數(shù)據(jù),可是,大并不是大數(shù)據(jù)的本質(zhì),大數(shù)據(jù)要看重的是跨界與全部。

特朗普當(dāng)選美國總統(tǒng)被稱為“黑天鵝”事件,而有關(guān)這次大選的民意調(diào)查也讓人大跌眼鏡,選前的各種民調(diào)幾乎都認(rèn)定希拉里大幅領(lǐng)先將輕松獲勝,可結(jié)果是大相徑庭??梢哉f,2016年的美國大選日成為了市場調(diào)查行業(yè)的又一黑暗的一天。

在1936年的美國總統(tǒng)選舉中,美國的《文學(xué)摘要》雜志社為了預(yù)測兩名總統(tǒng)候選人誰能當(dāng)選,通過電話薄和車輛注冊系統(tǒng)上的地址發(fā)出了1000萬封調(diào)查信件,并且根據(jù)200萬封回信得出了蘭登將以57%對43%的比例勝出的結(jié)論,但最終結(jié)果卻是另一名候選人富蘭克林.羅斯福以62%對38%的壓倒性優(yōu)勢勝出。那次預(yù)測的嚴(yán)重失誤,葬送了一家著名雜志,但是卻誕生了那家至今依然是世界上最著名的調(diào)查公司。

經(jīng)過后來的復(fù)盤分析,《文學(xué)摘要》雜志當(dāng)年所犯的錯誤,首先它的采樣方法就帶來了樣本偏差,當(dāng)時能用得上電話和汽車的,往往都是比較富裕的階層,同時愿意回信的也大都是表達(dá)意愿比較強(qiáng)的人們,所以這個調(diào)查實際上針對的是比較富裕的和比較愿意表達(dá)的人群,而那些貧困的或者沒那么愿意表達(dá)自己觀點的人,并沒有放棄自己投票的權(quán)利。

正是在1936年,統(tǒng)計學(xué)家喬治.蓋洛普開啟了科學(xué)抽樣的總統(tǒng)民意調(diào)查。蓋洛普的民意調(diào)查只有大約5萬個樣本,但在精心規(guī)劃的樣本中,黑人與白人、窮人與富人的比例都接近美國人的總體比例,最終,蓋洛普準(zhǔn)確預(yù)測了羅斯福的當(dāng)選,并且奠定了自己民意調(diào)查權(quán)威的地位。

這樣的經(jīng)典調(diào)查方法持續(xù)了八十年了,在2016年再次面臨拐點。在人們分析這次大選調(diào)查普遍失敗的原因時,越來越看到,隨著互聯(lián)網(wǎng)的發(fā)展,沉默的大多數(shù)成為了影響調(diào)查結(jié)果的主導(dǎo)因素。也許,詢問的方式已經(jīng)真的要過時了。

直到今天,蓋洛普等這些調(diào)查公司,仍然通過電話訪談來進(jìn)行調(diào)查,每次大約訪談上千名擁有投票資格的公民。電話如今也不再是什么稀罕的東西了,調(diào)查公司還會通過電腦程序來隨機(jī)選擇受訪對象,以確保每個人都會有同等機(jī)會被選到,他們還會在訪談之后根據(jù)美國人口調(diào)查數(shù)據(jù)來進(jìn)行對比,調(diào)整權(quán)重以消除樣本偏差。如此的調(diào)查看起來非??茖W(xué),符合統(tǒng)計學(xué)的規(guī)律,可是,在現(xiàn)實面前還是敗下陣來。

據(jù)說,與大部分看好希拉里的主流媒體不同,印度新創(chuàng)公司Genic.ai 開發(fā)的名為 MogIA 的人工智能系統(tǒng)一直就預(yù)測特朗普將最終勝出。跟其他調(diào)查公司主要依靠訪談和問卷不同,MogIA的判斷依據(jù)是收集自 Google、Facebook、Twitter 和YouTube等網(wǎng)站的超過 2000 萬個數(shù)據(jù)點,盡管希拉里的競選經(jīng)費是特朗普的5倍,在付費媒體上的投入是特朗普的6倍,但在社交媒體上希拉里卻始終處于全面劣勢。雖然有人認(rèn)為MogIA不能有效識別人們在這些網(wǎng)站留言評論中的“諷刺”、“反話”、“腦殘粉”、“高級黑”、“似黑實粉”等細(xì)微之處,但這反而可能成為了MogIA的優(yōu)勢,很多時候,點贊、轉(zhuǎn)發(fā)甚至只是閱讀,關(guān)注,就足以代表了那些“沉默的大多數(shù)”的真實想法。

當(dāng)然,2016年的美國大選,再次讓大數(shù)據(jù)成為了熱點,因為來自中國加工制造的特朗普與希拉里的面具數(shù)量早已透露了玄機(jī)。中國的社交網(wǎng)絡(luò)上有這樣一條消息:早在今年5月,浙江金華一家橡膠工藝美術(shù)廠,就接到了特朗普和希拉里的面具訂單,隨著競選熱度的提高,特朗普面具的訂單已超過50萬張,遙遙領(lǐng)先希拉里。

事實上,這一現(xiàn)象早就被阿里巴巴的數(shù)據(jù)分析師注意到了。從2月1日(初選開始)到特朗普成為共和黨唯一候選人,在阿里巴巴全球速賣通網(wǎng)頁上搜索“Donald Trump T-shirt”,就會出現(xiàn)各式印有特朗普的T恤衫。特別,這些買家普遍表現(xiàn)得很熱情,曬買家秀,發(fā)表留言的,比比皆是,而且留言絕大多數(shù)都表示支持特朗普,反觀有關(guān)希拉里的T恤衫就比特朗普樸實許多。整個競選期間,特朗普在全球速賣通上的搜索次數(shù)還有周邊產(chǎn)品的銷量都已經(jīng)甩了希拉里幾條街。在相關(guān)產(chǎn)品頁,特朗普遙遙領(lǐng)先,與特朗普相關(guān)的產(chǎn)品有11頁,而與希拉里相關(guān)的產(chǎn)品只有短短3頁。

因此,有人說,在大型體育賽事中,類似的數(shù)據(jù)結(jié)果也多次靈驗。在2014年的巴西世界杯中,國旗訂單量最大的就是德國的國旗,而德國果然最終奪冠。當(dāng)然,我們并不應(yīng)該將世界杯奪冠與美國大選并列,因為,對于美國大選來說,選民的選擇是決定結(jié)果的充分因素,而在世界杯中,國旗的偏好只是代表了關(guān)注度和意愿,且并非決定性因素,最終的結(jié)果要靠球員的當(dāng)場比賽的表現(xiàn)。

阿里巴巴國際站解釋稱,這是因為類似面具這樣的大宗采購商基本都直接來自國外大的貿(mào)易商、批發(fā)商。廠方則介紹說,這些貿(mào)易商的采購需求大多直接來自于當(dāng)?shù)卣Ⅻh派和財團(tuán),也有一些有組織的粉絲團(tuán)。所以從某種程度看,訂單數(shù)量體現(xiàn)了當(dāng)?shù)厝藢Σ煌蜻x人的支持力度。

不過,大數(shù)據(jù)的預(yù)測精準(zhǔn)與否還取決于數(shù)據(jù)的全面性。如果候選人面具不是全部在中國生產(chǎn),獲得生產(chǎn)廠家無法得到全面的訂單數(shù)據(jù),預(yù)測就會出現(xiàn)偏差。即便數(shù)據(jù)全面,下一次的預(yù)測也很可能不生效。在這樣的訂單結(jié)果會影響最終成敗的情況下,下一次肯定會有大量的摻水訂單來實現(xiàn)數(shù)據(jù)擾動。

其實,美國的總統(tǒng)候選人或者調(diào)查機(jī)構(gòu)也并不是沒有看到大數(shù)據(jù)的價值??偨y(tǒng)候選人們在進(jìn)行分析的時候,所依賴的數(shù)據(jù)來源也不僅僅是民意調(diào)查結(jié)果,還涵蓋了諸多的如facebook這類的社交網(wǎng)站和公開及私有的數(shù)據(jù)庫。將美國超過2億的選民資料,與大型網(wǎng)站與社交網(wǎng)絡(luò)上的個人賬號相互匹配起來,將網(wǎng)絡(luò)行為對應(yīng)到具體的個體,再和已經(jīng)構(gòu)成的、龐大的用戶個人數(shù)據(jù)相結(jié)合,最終完全由準(zhǔn)確數(shù)據(jù)來驅(qū)動競選策略。以上這些,使得大數(shù)據(jù)分析技術(shù)成了兩黨候選人的重要武器,只是,在原來思維狀態(tài)的影響下,還是犯了錯誤

不管怎樣,2016年的美國總統(tǒng)大選都成為了新時代統(tǒng)計調(diào)查的分水嶺,忽視大數(shù)據(jù)的力量而頑固保守的堅持傳統(tǒng)科學(xué)的統(tǒng)計方式,將被證明已經(jīng)落伍。當(dāng)然,大數(shù)據(jù)的結(jié)果也并非完美,傳統(tǒng)的統(tǒng)計科技并不會過時。美利堅大學(xué)著名歷史教授艾倫.里奇曼評價說,“這是現(xiàn)代民意調(diào)查的誕生,也是老式民意調(diào)查的終結(jié)——直到互聯(lián)網(wǎng)出現(xiàn)之前”。里奇曼認(rèn)為互聯(lián)網(wǎng)時代的民意調(diào)查又回到了1936年之前的狀況:“沒有科學(xué)采樣,依靠選擇性回復(fù),這和我們今天所看到的網(wǎng)絡(luò)民意調(diào)查如出一轍。”統(tǒng)計調(diào)查的方法將產(chǎn)生深遠(yuǎn)的變革,我們都還在探索的路上。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號