囯产精品无码成人久久久,18以下勿进色禁网站永久免费,6080yy午夜福利无码视频

大數(shù)據(jù)確實會說謊？

責(zé)任編輯：editor004

2014-02-20 11:22:11

摘自：物聯(lián)中國

現(xiàn)在的數(shù)據(jù)往往是海量的，特別是很多新興的數(shù)據(jù)，很具有時效性，打破了原先數(shù)據(jù)先搜集、清洗、存儲、然后進行分析的滯后手段。最近普林斯頓大學(xué)和社交軟件老大facebook之間的互掐事件，也說明了另一個事實：數(shù)據(jù)分析有時候也是會出問題的

大數(shù)據(jù)分析跟傳統(tǒng)的數(shù)據(jù)分析，到底有什么區(qū)別？可能很多人覺得大數(shù)據(jù)分析非常神秘，但其實大數(shù)據(jù)分析并沒有那么神秘。

第一、現(xiàn)在的大數(shù)據(jù)分析，跟傳統(tǒng)意義的分析有一個本質(zhì)區(qū)別，就是傳統(tǒng)的分析是基于結(jié)構(gòu)化、關(guān)系性的數(shù)據(jù)。而且往往是取一個很小的數(shù)據(jù)集，來對整個數(shù)據(jù)進行預(yù)測和判斷。但現(xiàn)在是大數(shù)據(jù)時代，理念已經(jīng)完全改變了，現(xiàn)在的大數(shù)據(jù)分析，是對整個數(shù)據(jù)全集直接進行存儲和管理分析。

大數(shù)據(jù)時代的數(shù)據(jù)分析跟過去有什么不同？

第二、以前的分析是小樣本分析，所以往往要用小樣本來預(yù)測整個數(shù)據(jù)全集的特性，這就決定了所采集的小樣本必須是高品質(zhì)的，否則預(yù)測出來的結(jié)果就會出現(xiàn)很大偏差。現(xiàn)在的大數(shù)據(jù)分析，是對數(shù)據(jù)全集的分析，所以要對數(shù)據(jù)的一些噪音有一定的包容性。

第三、原先傳統(tǒng)的數(shù)據(jù)分析，是根據(jù)小樣本數(shù)據(jù)的分析對全局數(shù)據(jù)進行分析和預(yù)測。所以在整個預(yù)測分析過程中往往采用因果關(guān)系的推理過程?，F(xiàn)在的大數(shù)據(jù)分析，因果關(guān)系并不是關(guān)注點，而是基于對整個數(shù)據(jù)全集的分析。對企業(yè)來說需要了解的是，關(guān)聯(lián)性的分析和規(guī)律性的特性。比如啤酒往往跟尿布的銷售同步上升，那么在大數(shù)據(jù)的分析下，我們不需要了解為什么啤酒和尿布的銷售量會同步增長，只需要知道尿布和啤酒是同步上升就可以了，基于這個結(jié)果，就可以制定很多商業(yè)策略和營銷手段。

第四、現(xiàn)在的數(shù)據(jù)往往是海量的，特別是很多新興的數(shù)據(jù)，很具有時效性，打破了原先數(shù)據(jù)先搜集、清洗、存儲、然后進行分析的滯后手段。很多分析的需求往往是實時的，需要邊采集，邊分析，這也是大數(shù)據(jù)分析的另一大特性。

[page]

早在中學(xué)階段，統(tǒng)計學(xué)就告訴我們一個事實：數(shù)據(jù)是不會說謊的，大量的統(tǒng)計數(shù)據(jù)經(jīng)過整理建模，可以最直觀地反映真實的情況。近幾年來，大數(shù)據(jù)技術(shù)在各領(lǐng)域取得的成功也為這一事實提供了最佳的佐證。不過，最近普林斯頓大學(xué)和社交軟件老大facebook之間的互掐事件，也說明了另一個事實：數(shù)據(jù)分析有時候也是會出問題的。

大數(shù)據(jù)也會說謊？問題出在模型上

普林斯頓奇怪研究惹毛facebook

上個月底，美國普林斯頓大學(xué)發(fā)表了一篇十分有料的研究報告，報告上稱，按照普林斯頓研究人員的統(tǒng)計和計算，目前的社交網(wǎng)站龍頭老大facebook在三年內(nèi)將會流失百分之八十的用戶，面臨關(guān)門大吉的境地。這份報告寫得十分正式，一點也不像惡搞的玩笑，經(jīng)過各大媒體的瘋狂轉(zhuǎn)載，facebook終于怒了，幾天之后facebook的數(shù)據(jù)科學(xué)家們也發(fā)表了一份研究報告，用和普林斯頓研究員一樣的數(shù)學(xué)模型和數(shù)據(jù)獲取渠道，得到了更聳人聽聞的分析結(jié)果：普林斯頓大學(xué)學(xué)生將在2018年減少一半，到2021年將失去所有學(xué)生。

很明顯，facebook和普林斯頓的互掐在業(yè)界已經(jīng)成了一個段子，他們的分析結(jié)果顯然都是不靠譜的，但是他們所用的方法，卻是實實在在的大數(shù)據(jù)技術(shù)和嚴謹?shù)臄?shù)學(xué)模型，難道，數(shù)據(jù)真的會說謊嗎?

分析算法和數(shù)據(jù)渠道選用不當(dāng)，數(shù)據(jù)確實會說謊

之所以普林斯頓和facebook的研究報告會得出那樣離譜的結(jié)果，主要原因在于他們獲取數(shù)據(jù)的渠道以及分析數(shù)據(jù)所用的算法模型不當(dāng)，在數(shù)據(jù)分析中，只要這兩個東西錯了，數(shù)據(jù)一定會“說謊”。

研究報告中，普林斯頓和facebook用于分析對方的模型都是“流行病學(xué)模型”，這個模型一般被用于預(yù)測某種傳染性疾病從爆發(fā)到消失的時間及規(guī)模，初步看來，普林斯頓大學(xué)和facebook的使用人群都符合“未感染”、“感染中”、“已痊愈”的三類劃分，與流行病模型確實有相似之處，但仔細一想?yún)s經(jīng)不起推敲，因為流行病會受到藥物及人體自身免疫系統(tǒng)的抵抗而消失，但facebook和普林斯頓大學(xué)卻不會，相反，社交軟件和高等學(xué)府是人們需要的東西。

除了分析模型選用錯誤，普林斯頓大學(xué)在獲取數(shù)據(jù)的渠道上，也存在選擇不當(dāng)?shù)膯栴}，研究人員在統(tǒng)計facebook的使用度時，依靠的是谷歌上“facebook”詞條的搜索數(shù)量，并且由“facebook”詞條的搜索頻率越來越低就判斷出facebook正在流失用戶，這是非常武斷的。因為隨著移動技術(shù)的發(fā)展，越來越多的人會通過客戶端而不是網(wǎng)頁來登錄facebook，在這種趨勢下，谷歌上“fcebook”詞條的搜索頻率必然會越來越低，但這并不代表它的用戶數(shù)量也在減少。

普林斯頓和facebook的段子我們可以一笑而過，在數(shù)據(jù)分析時，準(zhǔn)確選用分析模型及數(shù)據(jù)來源的重要性由此也可見一斑，不然數(shù)據(jù)真說起謊來，可是一點也不好笑。

Facebook 谷歌分析模型數(shù)據(jù)分析