數(shù)據(jù)挖掘主要做什么?換而言之,數(shù)據(jù)挖掘主要解決什么問(wèn)題呢?這些問(wèn)題,可以歸結(jié)為數(shù)據(jù)挖掘的基本任務(wù)。
數(shù)據(jù)挖掘的基本任務(wù)包括分類(lèi)與預(yù)測(cè)、聚類(lèi)分析、關(guān)聯(lián)規(guī)則、奇異值檢測(cè)和智能推薦等。通過(guò)完成這些任務(wù),發(fā)現(xiàn)數(shù)據(jù)的價(jià)值,指導(dǎo)商業(yè)抉擇,帶來(lái)商業(yè)新價(jià)值。
關(guān)于這些基本任務(wù),簡(jiǎn)單描述如下。實(shí)際上對(duì)每個(gè)基本任務(wù),可以看做是數(shù)據(jù)挖掘所能解決問(wèn)題的一種類(lèi)型。對(duì)于每個(gè)任務(wù),可以從其定義、方法、評(píng)價(jià)和應(yīng)用四個(gè)方面來(lái)認(rèn)識(shí)。
分類(lèi)與預(yù)測(cè),一種基于類(lèi)標(biāo)號(hào)的學(xué)習(xí)方式,這種類(lèi)標(biāo)號(hào)若是離散的,屬于分類(lèi)問(wèn)題;若是連續(xù)的,屬于預(yù)測(cè)問(wèn)題,或者稱(chēng)為回歸問(wèn)題。從廣義上來(lái)說(shuō),不管是分類(lèi),還是回歸,都可以看做是一種預(yù)測(cè),差異就是預(yù)測(cè)的結(jié)果是離散的還是連續(xù)的。
聚類(lèi)分析,就是“物以類(lèi)聚,人以群分”在原始數(shù)據(jù)集中的運(yùn)用,其目的是把原始數(shù)據(jù)聚成幾類(lèi),從而使得類(lèi)內(nèi)相似度高,類(lèi)間差異性大。
關(guān)聯(lián)規(guī)則,數(shù)據(jù)挖掘可以用來(lái)發(fā)現(xiàn)規(guī)則,關(guān)聯(lián)規(guī)則屬于一種非常重要的規(guī)則,即通過(guò)數(shù)據(jù)挖掘方法,發(fā)現(xiàn)事務(wù)數(shù)據(jù)背后所隱含的某一種或者多種關(guān)聯(lián),從而利用這些關(guān)聯(lián)來(lái)指導(dǎo)商業(yè)決策和行為。
奇異值檢測(cè),根據(jù)一定準(zhǔn)則識(shí)別或者檢測(cè)出數(shù)據(jù)集中的異常值,所謂異常值就是和數(shù)據(jù)集中的絕大多數(shù)據(jù)表現(xiàn)不一致。
智能推薦,這是數(shù)據(jù)挖掘一個(gè)很活躍的研究和應(yīng)用領(lǐng)域,在各大電商網(wǎng)站中都會(huì)有各種形式推薦,比方說(shuō)同類(lèi)用戶(hù)所購(gòu)買(mǎi)的產(chǎn)品,與你所購(gòu)買(mǎi)產(chǎn)品相關(guān)聯(lián)的產(chǎn)品等。
對(duì)于每一種基本任務(wù),除了了解它們具體可以做什么,重要的是要學(xué)習(xí)每一個(gè)任務(wù)有哪些行之有效的方法。舉個(gè)例子來(lái)說(shuō),分類(lèi)與預(yù)測(cè),常用的方法有決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、最近鄰、樸素貝葉斯、支持向量機(jī)、隨機(jī)森林等,因而對(duì)于這些典型的方法具體原理是什么,怎么使用,各自有著什么樣的特點(diǎn),都應(yīng)該深入地理解,接下來(lái)就是針對(duì)特定數(shù)據(jù)挖掘問(wèn)題,思考其屬于哪一種類(lèi)型的任務(wù),然后根據(jù)任務(wù)的具體特點(diǎn),選擇合適的方法來(lái)處理,并且對(duì)基于各種方法所建立的數(shù)據(jù)挖掘模型,要進(jìn)行客觀地評(píng)估,已選擇最佳模型。
對(duì)于每一個(gè)基本任務(wù)具體有哪些方法,我會(huì)在后續(xù)進(jìn)行總結(jié)。在這里,僅是說(shuō)說(shuō)數(shù)據(jù)挖掘主要解決什么問(wèn)題,至于對(duì)于這些問(wèn)題具體怎么來(lái)解決,針對(duì)每一種類(lèi)型,會(huì)在后續(xù)的文章中逐一說(shuō)來(lái)。
最后,借用這一段話(huà)收尾“數(shù)據(jù)就是21世紀(jì)的原油,需要加工才能產(chǎn)生價(jià)值。我們用數(shù)據(jù)做什么?怎樣帶來(lái)價(jià)值?目前常見(jiàn)的大概有五個(gè)方向:預(yù)測(cè),推薦,問(wèn)題識(shí)別,個(gè)性化,以及參考。預(yù)測(cè),尤其是近期預(yù)測(cè),以Google Flu Trends為代表,結(jié)合歷史數(shù)據(jù)推斷近期是否會(huì)爆發(fā)流感。內(nèi)容推薦,以Netflix為代表,他們當(dāng)時(shí)為電影評(píng)分推薦引擎專(zhuān)門(mén)設(shè)置了一個(gè)獎(jiǎng)項(xiàng)。問(wèn)題識(shí)別,如城市堵車(chē)問(wèn)題,有一家叫做Inrix的公司在37個(gè)國(guó)家提供實(shí)時(shí)交通信息。個(gè)性化,以LinkedIn的Economic Graph為代表。公共參考這一塊,我很欣賞的一個(gè)非盈利組織DataKind做得很不錯(cuò),他們?cè)谌蚝芏鄧?guó)家都提供數(shù)據(jù)點(diǎn),涉及饑餓問(wèn)題、氣候問(wèn)題等。另外美國(guó)政府在數(shù)據(jù)這方面也有很大投入,他們聘請(qǐng)了DJ Patil作為首席數(shù)據(jù)科學(xué)家,也建立了data.gov網(wǎng)站公布很多政務(wù)信息。”