數(shù)據(jù)科學(xué)家使用統(tǒng)計(jì)分析工具深度挖掘數(shù)據(jù)潛在的內(nèi)容時(shí)經(jīng)常會(huì)遭遇到大數(shù)據(jù)挖的坑,實(shí)際上這些坑并不是只有大數(shù)據(jù)才有,大自然本身就存在很多虛假的相關(guān)性,大數(shù)據(jù)只是更加劇了這種虛假的相關(guān)性。
隨著數(shù)據(jù)來(lái)源的增多和預(yù)測(cè)類型的多樣化,數(shù)據(jù)建模關(guān)系的數(shù)量開始接近無(wú)窮大。正如David G. Young指出的那樣,在預(yù)測(cè)分析的時(shí)候,我們要看到相互作用,變化的曲率、意義,有時(shí)甚至要看到變化的標(biāo)志。
在做數(shù)據(jù)建模的相關(guān)性分析時(shí),最關(guān)鍵的是找對(duì)數(shù)據(jù)范圍,尤其是設(shè)置合適的變量和算法。一旦你找到了變量和算法的正確組合,那么你就掌握了正確打開相關(guān)性分析的密鑰。
有時(shí)候,我們會(huì)發(fā)現(xiàn)數(shù)據(jù)建模的相關(guān)性可能和實(shí)際情況并不相符,它只是你自以為正確的數(shù)據(jù)模型。即使你本身并沒有欺騙的意圖,也是按照科學(xué)的方法來(lái)建模的,但是你的數(shù)據(jù)模型并不一定能幫助你獲得數(shù)據(jù)背后的真正洞察力。
認(rèn)知偏差是每一個(gè)人都會(huì)犯的錯(cuò)誤,即使你是一個(gè)非常優(yōu)秀的數(shù)據(jù)科學(xué)家也不能百分百確保不犯數(shù)學(xué)和邏輯上的錯(cuò)誤、正確的挖掘出數(shù)據(jù)背后的價(jià)值。
諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)獲得者丹尼爾·卡納曼在他的著作《思維說(shuō),快與慢》中表示:人類如果沒有接受教育,那么每個(gè)人都是生而不同的。我們可能無(wú)法看透數(shù)據(jù)統(tǒng)計(jì)的深層次內(nèi)容,但是現(xiàn)實(shí)世界確實(shí)存在著某種規(guī)律,這種規(guī)律有時(shí)難以捉摸,但有時(shí)我們只憑直覺就可以找到。
如果你是一個(gè)正在探索數(shù)據(jù)驅(qū)動(dòng)的數(shù)據(jù)科學(xué)家,那么你就要注意虛假相關(guān)性,它將會(huì)是一個(gè)非常危險(xiǎn)的陷阱。這種虛假相關(guān)性產(chǎn)生的原因可能是數(shù)據(jù)科學(xué)家太想要驗(yàn)證某個(gè)假設(shè),也可能是迫于企業(yè)的商業(yè)模式的要求。利用這種虛假相關(guān)性建立的數(shù)據(jù)模型也許能夠解決一時(shí)的問題,但是它本質(zhì)還是一個(gè)劣質(zhì)的模型,經(jīng)不起時(shí)間的考驗(yàn),說(shuō)不定會(huì)在哪個(gè)瞬間給你致命的一擊。
那么數(shù)據(jù)科學(xué)家如何才能減少在數(shù)據(jù)挖掘時(shí)無(wú)意中做出虛假統(tǒng)計(jì)相關(guān)性的概率。
集成學(xué)習(xí)
集成學(xué)習(xí)是使用一系列學(xué)習(xí)器進(jìn)行學(xué)習(xí),并使用某種規(guī)則把各個(gè)學(xué)習(xí)結(jié)果進(jìn)行整合從而獲得比單個(gè)學(xué)習(xí)器更好的學(xué)習(xí)效果的一種機(jī)器學(xué)習(xí)方法。這種方法的難點(diǎn)在于要在不同的樣本中進(jìn)行訓(xùn)練,采用不同的算法,但是這種方法能夠有效的揭示一些相關(guān)性。集成學(xué)習(xí)的算法是通過(guò)獨(dú)立模型的結(jié)果集的訓(xùn)練、取平均、bagging、boosting等多種方法得到的,能夠有效減少各層模型之間的差異。
A/B測(cè)試
A/B測(cè)試其實(shí)是一種“先驗(yàn)”的實(shí)驗(yàn)體系,屬于預(yù)測(cè)型結(jié)論,與“后驗(yàn)”的歸納性結(jié)論差別巨大。A/B測(cè)試顧名思義就是為同一個(gè)目標(biāo)設(shè)計(jì)A、B兩套方案,其中一個(gè)為守擂者,一個(gè)為攻擊者,通過(guò)科學(xué)的實(shí)驗(yàn)設(shè)計(jì)、真實(shí)的數(shù)據(jù)監(jiān)測(cè)來(lái)選出最具預(yù)測(cè)價(jià)值的方案。
穩(wěn)健模型
這種方法涉及到數(shù)據(jù)建模的方方面面,為了確保預(yù)測(cè)是穩(wěn)定的,我們要多方考慮,比如數(shù)據(jù)源、采樣技術(shù)、算法方法、時(shí)間等等。此外,離散點(diǎn)分析也是非常重要的,Vincent Granville前幾年就已經(jīng)表示數(shù)據(jù)集的異常有可能掩蓋數(shù)據(jù)的真正模式,增加虛假相關(guān)性的發(fā)生率。
“數(shù)據(jù)驅(qū)動(dòng)決策”已經(jīng)成為這個(gè)時(shí)代的潮流,好的決策應(yīng)該是數(shù)據(jù)驅(qū)動(dòng)的,所以數(shù)據(jù)模型的建立就顯得尤為重要。如果你是一個(gè)數(shù)據(jù)科學(xué)家,希望以上的方法能夠?qū)δ憬S兴鶐椭?/p>
原文出處:http://www.infoworld.com/article/3109497/analytics/know-when-your-big-data-is-telling-big-lies.html