數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的區(qū)別和聯(lián)系,周志華有一篇很好的論述《機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘》可以幫助大家理解。
數(shù)據(jù)挖掘受到很多學(xué)科領(lǐng)域的影響,其中數(shù)據(jù)庫(kù)、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)無(wú)疑影響最大。簡(jiǎn)言之,對(duì)數(shù)據(jù)挖掘而言,數(shù)據(jù)庫(kù)提供數(shù)據(jù)管理技術(shù),機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)提供數(shù)據(jù)分析技術(shù)。
由于統(tǒng)計(jì)學(xué)往往醉心于理論的優(yōu)美而忽視實(shí)際的效用,因此,統(tǒng)計(jì)學(xué)界提供的很多技術(shù)通常都要在機(jī)器學(xué)習(xí)界進(jìn)一步研究,變成有效的機(jī)器學(xué)習(xí)算法之后才能再進(jìn)入數(shù)據(jù)挖掘領(lǐng)域。從這個(gè)意義上說(shuō),統(tǒng)計(jì)學(xué)主要是通過(guò)機(jī)器學(xué)習(xí)來(lái)對(duì)數(shù)據(jù)挖掘發(fā)揮影響,而機(jī)器學(xué)習(xí)和數(shù)據(jù)庫(kù)則是數(shù)據(jù)挖掘的兩大支撐技術(shù)。
從數(shù)據(jù)分析的角度來(lái)看,絕大多數(shù)數(shù)據(jù)挖掘技術(shù)都來(lái)自機(jī)器學(xué)習(xí)領(lǐng)域,但機(jī)器學(xué)習(xí)研究往往并不把海量數(shù)據(jù)作為處理對(duì)象,因此,數(shù)據(jù)挖掘要對(duì)算法進(jìn)行改造,使得算法性能和空間占用達(dá)到實(shí)用的地步。同時(shí),數(shù)據(jù)挖掘還有自身獨(dú)特的內(nèi)容,即關(guān)聯(lián)分析。
而模式識(shí)別和機(jī)器學(xué)習(xí)的關(guān)系是什么呢,傳統(tǒng)的模式識(shí)別的方法一般分為兩種:統(tǒng)計(jì)方法和句法方法。句法分析一般是不可學(xué)習(xí)的,而統(tǒng)計(jì)分析則是發(fā)展了不少機(jī)器學(xué)習(xí)的方法。也就是說(shuō),機(jī)器學(xué)習(xí)同樣是給模式識(shí)別提供了數(shù)據(jù)分析技術(shù)。
至于,數(shù)據(jù)挖掘和模式識(shí)別,那么從其概念上來(lái)區(qū)分吧,數(shù)據(jù)挖掘重在發(fā)現(xiàn)知識(shí),模式識(shí)別重在認(rèn)識(shí)事物。
機(jī)器學(xué)習(xí)的目的是建模隱藏的數(shù)據(jù)結(jié)構(gòu),然后做識(shí)別、預(yù)測(cè)、分類等。因此,機(jī)器學(xué)習(xí)是方法,模式識(shí)別是目的。
總結(jié)一下吧。只要跟決策有關(guān)系的都能叫 AI(人工智能),所以說(shuō) PR(模式識(shí)別)、DM(數(shù)據(jù)挖掘)、IR(信息檢索) 屬于 AI 的具 體應(yīng)用應(yīng)該沒有問題。 研究的東西則不太一樣, ML(機(jī)器學(xué)習(xí)) 強(qiáng)調(diào)自我完善的過(guò)程。 Anyway,這些學(xué)科都是相通的。