《企業(yè)網(wǎng)D1Net》3月14日(北京 編譯)
有什么可以區(qū)別這三種主要類型的分析呢?一位數(shù)據(jù)科學(xué)家解釋了其中的差異。
大部分原始數(shù)據(jù),特別是大數(shù)據(jù),不能在其未加工狀態(tài)為我們提供很大的價(jià)值。當(dāng)然,通過應(yīng)用合適的工具,我們可以從這個(gè)存儲(chǔ)的碎片中提煉出有力的見解。
任何大數(shù)據(jù)的設(shè)置,第一步是捕獲大量的數(shù)字信息,“使其不存在短缺的問題”邁克爾·吳博士說。
有了第一手資料,就可以開始做分析了。但是,你該從哪里開始?哪一種分析類型更適合你的大數(shù)據(jù)環(huán)境呢?
吳在接受采訪時(shí)解釋了描述型的,預(yù)測(cè)型和規(guī)范型分析的不同,以及它們?nèi)绾螢榻M織提供價(jià)值。
他說。“一旦你有足夠的數(shù)據(jù),你就開始看到模式了,你就可以建立一個(gè)這些數(shù)據(jù)如何起作用的模型了。一旦你建立了一個(gè)模型,你就可以進(jìn)行預(yù)測(cè)了。”
第一步:描述型分析
在2013年3月份吳在這個(gè)主題上的博客系列中,他將描述型分析稱為“最簡(jiǎn)單的一類分析,”利用這種分析你可以將大數(shù)據(jù)壓縮成更小,更有益的信息。
“記住,最原始的數(shù)據(jù),尤其是大數(shù)據(jù),不適合供人分析,但我們從數(shù)據(jù)中得出的信息是可以供我們分析的,”吳寫道。
描述型分析的目的是總結(jié)發(fā)生了什么事。吳估計(jì),超過80%的商務(wù)分析——最明顯的是社會(huì)分析——是描述型的。
預(yù)測(cè)型分析是數(shù)據(jù)縮減的下一步
它利用各種統(tǒng)計(jì),建模,數(shù)據(jù)挖掘技術(shù)和機(jī)器學(xué)習(xí)技術(shù)來研究近期的和歷史的數(shù)據(jù),從而使分析家對(duì)未來做出預(yù)測(cè)。
“預(yù)測(cè)型分析的目的不是為了告訴你將來會(huì)發(fā)生什么,”吳博客中寫到。 “它不能做到這一點(diǎn)。事實(shí)上,任何分析都不能做到這一點(diǎn)。預(yù)測(cè)型分析只能預(yù)測(cè)在將來可能發(fā)生的事情,因?yàn)樗械念A(yù)測(cè)型分析都是概率性的。”
吳告訴信息周刊說,在預(yù)測(cè)型分析的最一般的情況下,“基本上你需要得到你預(yù)測(cè)中沒有的數(shù)據(jù)”
例如,情感分析是預(yù)測(cè)型分析的一種常見類型:
吳說:“純文本的輸入模型,以及這一模型的輸出是一個(gè)情感指數(shù),無論是積極的,消極的,或介于+1或-1之間的東西。”
在這種情況下,該模型計(jì)算出分?jǐn)?shù),但是它不一定能預(yù)測(cè)未來。相反,“它能預(yù)測(cè)我們沒有的數(shù)據(jù),即情緒標(biāo)簽數(shù)據(jù),無論是正面或負(fù)面,”吳說。
規(guī)范型分析這一新興技術(shù)通過建議一個(gè)或多個(gè)課程行動(dòng),以及顯示每一決策的可能成果,超越了描述型和預(yù)測(cè)型模型
“規(guī)定型分析是預(yù)測(cè)型分析的一種,”吳說。“基本上是當(dāng)我們需要規(guī)定一個(gè)動(dòng)作,因此交易的決策者可以利用這一信息并采取行動(dòng)。”
他補(bǔ)充說,預(yù)測(cè)型分析不能預(yù)測(cè)一個(gè)可能的未來,而是基于決策者行動(dòng)的“多個(gè)未來”。
此外,規(guī)定型分析需要一個(gè)預(yù)測(cè)模型有兩個(gè)額外的組件:可操作的數(shù)據(jù)和一個(gè)可以追蹤所采取的行動(dòng)所產(chǎn)生結(jié)果的反饋系統(tǒng),。
“由于規(guī)定型模型能夠預(yù)測(cè)基于不同行為選擇可能帶來的各種后果,它也可以為您推薦基于任何預(yù)先指定結(jié)果的最好的行動(dòng)過程,”吳寫道。