大數(shù)據(jù)確實會說謊?

責(zé)任編輯:editor004

2014-02-20 11:22:11

摘自:物聯(lián)中國

現(xiàn)在的數(shù)據(jù)往往是海量的,特別是很多新興的數(shù)據(jù),很具有時效性,打破了原先數(shù)據(jù)先搜集、清洗、存儲、然后進行分析的滯后手段。最近普林斯頓大學(xué)和社交軟件老大facebook之間的互掐事件,也說明了另一個事實:數(shù)據(jù)分析有時候也是會出問題的

大數(shù)據(jù)分析跟傳統(tǒng)的數(shù)據(jù)分析,到底有什么區(qū)別?可能很多人覺得大數(shù)據(jù)分析非常神秘,但其實大數(shù)據(jù)分析并沒有那么神秘。

第一、現(xiàn)在的大數(shù)據(jù)分析,跟傳統(tǒng)意義的分析有一個本質(zhì)區(qū)別,就是傳統(tǒng)的分析是基于結(jié)構(gòu)化、關(guān)系性的數(shù)據(jù)。而且往往是取一個很小的數(shù)據(jù)集,來對整個數(shù)據(jù)進行預(yù)測和判斷。但現(xiàn)在是大數(shù)據(jù)時代,理念已經(jīng)完全改變了,現(xiàn)在的大數(shù)據(jù)分析,是對整個數(shù)據(jù)全集直接進行存儲和管理分析。

大數(shù)據(jù)時代的數(shù)據(jù)分析跟過去有什么不同?

第二、以前的分析是小樣本分析,所以往往要用小樣本來預(yù)測整個數(shù)據(jù)全集的特性,這就決定了所采集的小樣本必須是高品質(zhì)的,否則預(yù)測出來的結(jié)果就會出現(xiàn)很大偏差。現(xiàn)在的大數(shù)據(jù)分析,是對數(shù)據(jù)全集的分析,所以要對數(shù)據(jù)的一些噪音有一定的包容性。

第三、原先傳統(tǒng)的數(shù)據(jù)分析,是根據(jù)小樣本數(shù)據(jù)的分析對全局數(shù)據(jù)進行分析和預(yù)測。所以在整個預(yù)測分析過程中往往采用因果關(guān)系的推理過程?,F(xiàn)在的大數(shù)據(jù)分析,因果關(guān)系并不是關(guān)注點,而是基于對整個數(shù)據(jù)全集的分析。對企業(yè)來說需要了解的是,關(guān)聯(lián)性的分析和規(guī)律性的特性。比如啤酒往往跟尿布的銷售同步上升,那么在大數(shù)據(jù)的分析下,我們不需要了解為什么啤酒和尿布的銷售量會同步增長,只需要知道尿布和啤酒是同步上升就可以了,基于這個結(jié)果,就可以制定很多商業(yè)策略和營銷手段。

第四、現(xiàn)在的數(shù)據(jù)往往是海量的,特別是很多新興的數(shù)據(jù),很具有時效性,打破了原先數(shù)據(jù)先搜集、清洗、存儲、然后進行分析的滯后手段。很多分析的需求往往是實時的,需要邊采集,邊分析,這也是大數(shù)據(jù)分析的另一大特性。

[page]

早在中學(xué)階段,統(tǒng)計學(xué)就告訴我們一個事實:數(shù)據(jù)是不會說謊的,大量的統(tǒng)計數(shù)據(jù)經(jīng)過整理建模,可以最直觀地反映真實的情況。近幾年來,大數(shù)據(jù)技術(shù)在各領(lǐng)域取得的成功也為這一事實提供了最佳的佐證。不過,最近普林斯頓大學(xué)和社交軟件老大facebook之間的互掐事件,也說明了另一個事實:數(shù)據(jù)分析有時候也是會出問題的。

大數(shù)據(jù)也會說謊?問題出在模型上

普林斯頓奇怪研究惹毛facebook

上個月底,美國普林斯頓大學(xué)發(fā)表了一篇十分有料的研究報告,報告上稱,按照普林斯頓研究人員的統(tǒng)計和計算,目前的社交網(wǎng)站龍頭老大facebook在三年內(nèi)將會流失百分之八十的用戶,面臨關(guān)門大吉的境地。這份報告寫得十分正式,一點也不像惡搞的玩笑,經(jīng)過各大媒體的瘋狂轉(zhuǎn)載,facebook終于怒了,幾天之后facebook的數(shù)據(jù)科學(xué)家們也發(fā)表了一份研究報告,用和普林斯頓研究員一樣的數(shù)學(xué)模型和數(shù)據(jù)獲取渠道,得到了更聳人聽聞的分析結(jié)果:普林斯頓大學(xué)學(xué)生將在2018年減少一半,到2021年將失去所有學(xué)生。

很明顯,facebook和普林斯頓的互掐在業(yè)界已經(jīng)成了一個段子,他們的分析結(jié)果顯然都是不靠譜的,但是他們所用的方法,卻是實實在在的大數(shù)據(jù)技術(shù)和嚴謹?shù)臄?shù)學(xué)模型,難道,數(shù)據(jù)真的會說謊嗎?

分析算法和數(shù)據(jù)渠道選用不當(dāng),數(shù)據(jù)確實會說謊

之所以普林斯頓和facebook的研究報告會得出那樣離譜的結(jié)果,主要原因在于他們獲取數(shù)據(jù)的渠道以及分析數(shù)據(jù)所用的算法模型不當(dāng),在數(shù)據(jù)分析中,只要這兩個東西錯了,數(shù)據(jù)一定會“說謊”。

研究報告中,普林斯頓和facebook用于分析對方的模型都是“流行病學(xué)模型”,這個模型一般被用于預(yù)測某種傳染性疾病從爆發(fā)到消失的時間及規(guī)模,初步看來,普林斯頓大學(xué)和facebook的使用人群都符合“未感染”、“感染中”、“已痊愈”的三類劃分,與流行病模型確實有相似之處,但仔細一想?yún)s經(jīng)不起推敲,因為流行病會受到藥物及人體自身免疫系統(tǒng)的抵抗而消失,但facebook和普林斯頓大學(xué)卻不會,相反,社交軟件和高等學(xué)府是人們需要的東西。

除了分析模型選用錯誤,普林斯頓大學(xué)在獲取數(shù)據(jù)的渠道上,也存在選擇不當(dāng)?shù)膯栴},研究人員在統(tǒng)計facebook的使用度時,依靠的是谷歌上“facebook”詞條的搜索數(shù)量,并且由“facebook”詞條的搜索頻率越來越低就判斷出facebook正在流失用戶,這是非常武斷的。因為隨著移動技術(shù)的發(fā)展,越來越多的人會通過客戶端而不是網(wǎng)頁來登錄facebook,在這種趨勢下,谷歌上“fcebook”詞條的搜索頻率必然會越來越低,但這并不代表它的用戶數(shù)量也在減少。

普林斯頓和facebook的段子我們可以一笑而過,在數(shù)據(jù)分析時,準(zhǔn)確選用分析模型及數(shù)據(jù)來源的重要性由此也可見一斑,不然數(shù)據(jù)真說起謊來,可是一點也不好笑。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號