又大又粗又硬又刺激免费,奇米四色7777

基于CRISP的數(shù)據(jù)挖掘有哪些坑？雙手奉上破解妙招

責任編輯：editor004

作者：林少宏

2017-02-06 11:24:13

摘自：雷鋒網(wǎng)

6 部署階段(Deploying)：根據(jù)用戶需求，實現(xiàn)一個重復的、復雜的數(shù)據(jù)挖掘過程。以上任一問題都可能使構(gòu)建出來的模型毫無商業(yè)價值，真正需要利用分析的組織，特別是數(shù)據(jù)挖掘、預測和機器學習等更高級的分析，必須避免這些問題。

雷鋒網(wǎng)按：本文作者為Decision Management Solutions的CEO James Taylor，是基于數(shù)據(jù)分析的決策管理系統(tǒng)構(gòu)建領(lǐng)域的領(lǐng)先專家，他為各種規(guī)模的公司提供戰(zhàn)略咨詢，與客戶的各個部門合作，讓他們可以使用決策模型，數(shù)據(jù)分析和其他決策技術(shù)。

決策管理系統(tǒng)可以幫助公司改進決策過程，開發(fā)數(shù)據(jù)驅(qū)動的敏捷業(yè)務系統(tǒng)。 Taylor 在 Kdnuggets上介紹了CRISP數(shù)據(jù)挖掘流程中常見問題和解決方案。本文由雷鋒網(wǎng)編譯。

CRISP-DM (cross-industry standard proCESs for data mining)，即跨行業(yè)數(shù)據(jù)挖掘標準流程，描述了數(shù)據(jù)挖掘的生命周期，是迄今為止最流行的數(shù)據(jù)挖掘流程，更多CRISP-DM的應用示例請看《CRISP-DM, still the top methodology for analytics, data mining, or data science projects》這篇文章。

之所以許多數(shù)據(jù)分析人員使用CRISP-DM，因為他們需要的是一種可重復使用的分析方法。然而，如何在日常工作中使用CRISP-DM方法時，仍存在一些問題。排名前四的4個問題分別是對業(yè)務需求缺乏認知，盲目的返工，盲目的部署和無法形成迭代。決策建模和決策管理可以解決這些問題，使CRISP-DM流程的價值最大化，并確保模型分析的有效性。

完整的CRISP-DM數(shù)據(jù)挖掘流程的各個階段如圖1所示。下面介紹每個階段所要完成的任務。

基于CRISP的數(shù)據(jù)挖掘有哪些坑？雙手奉上破解妙招

　　圖1 基于CRISP-DM的完整數(shù)據(jù)挖掘流程圖

1. 業(yè)務理解階段(Business Understanding)：集中在理解項目目標和從業(yè)務的角度理解需求，定義數(shù)據(jù)挖掘問題和完成目標的初步計劃；

2. 數(shù)據(jù)理解階段(Data Understanding)：從初始的數(shù)據(jù)收集開始，通過一些活動的處理，目的是熟悉數(shù)據(jù)，發(fā)現(xiàn)數(shù)據(jù)的內(nèi)部屬性，或是探測引起興趣的子集去形成隱含信息的假設；

3. 數(shù)據(jù)準備階段(Data Preparation)：數(shù)據(jù)準備階段包括從未處理的數(shù)據(jù)中構(gòu)造最終數(shù)據(jù)集的所有活動。這些數(shù)據(jù)將是建模階段的輸入值，任務包括屬性的選擇、數(shù)據(jù)表、記錄的抽取，以及將數(shù)據(jù)轉(zhuǎn)換為模型工具所需的格式和清洗數(shù)據(jù)；

4. 建模階段(Modeling)：可以選擇和應用不同的模型技術(shù)，模型參數(shù)被調(diào)整到最佳的數(shù)值。有些技術(shù)在數(shù)據(jù)格式上有特殊要求，因此需要經(jīng)常跳回到數(shù)據(jù)準備階段；

5. 評估階段(Evaluation)：經(jīng)過建模階段后，已建立了一個高質(zhì)量的決策模型，但在開始最后部署模型之前，重要的事情是徹底地評估模型，檢查構(gòu)造模型的步驟，確保模型可以完成業(yè)務目標。這個階段的關(guān)鍵目的是確定是否有重要業(yè)務問題沒有被充分的考慮，評估模型是否有達到最初設定的目標；

6. 部署階段(Deploying)：根據(jù)用戶需求，實現(xiàn)一個重復的、復雜的數(shù)據(jù)挖掘過程。

最外面這一圈表示數(shù)據(jù)挖掘自身的循環(huán)本質(zhì)，每一個解決方案部署之后代表另一個數(shù)據(jù)挖掘的過程也已經(jīng)開始了，需要在運行過程中不斷迭代、更新模型。

CRISP-DM是一個偉大的框架，它可以讓項目組聚焦于挖掘真正的商業(yè)價值上。CRISP-DM路程已經(jīng)存在有很長時間了，許多使用CRISP-DM流程的項目常常會走捷徑，這些捷徑中的有一些是有意義的，但捷徑往往會導致項目使用不完整的流程，如圖2所示。

基于CRISP的數(shù)據(jù)挖掘有哪些坑？雙手奉上破解妙招

　　圖2 典型的不完整CRISP-DM

這種不完整的CRISP-DM流程存在四個問題，具體包括：

1. 業(yè)務目標不清晰：

不能一開始就陷入細節(jié)，應該真正去了解業(yè)務問題以及明確一個模型可以發(fā)揮什么作用，確定項目團隊的業(yè)務目標和提出衡量項目成功的指標。“理解”了業(yè)務目標，團隊想把工作負擔最小化，就跳入項目的最有趣的部分--分析數(shù)據(jù)，但這樣做只產(chǎn)出有趣的模型，而不能滿足真正的商業(yè)需要。

2. 盲目地返工：

一些分析團隊只用分析術(shù)語來評估他們的模型，認為如果模型只要做到可預測，那么它就是一個好的模型。大多數(shù)人通?？梢砸庾R到模型是有問題的，就會嘗試檢查他們的模型是否符合業(yè)務目標。但如果缺乏對商業(yè)問題的充分認識，這樣的檢查往往是非常困難的。如果他們開發(fā)的模型不符合業(yè)務需求，此時團隊幾乎沒得選擇，此時大多數(shù)人是在嘗試找到新數(shù)據(jù)或新的建模技術(shù)，而不是與他們的業(yè)務合作伙伴一起重新評估業(yè)務問題。

3. 盲目地部署：

一些分析團隊根本不考慮他們模型的部署和操作的易用性。做得好些的團隊可以認識到他們構(gòu)建的模型必將處理實時數(shù)據(jù)，數(shù)據(jù)通常存儲在數(shù)據(jù)庫中，或嵌在式操作系統(tǒng)中。即使是這樣的團隊通常也沒有參與到部署工作中，不清楚模型是如何部署的，并不把部署當做分析工作的一部分，結(jié)果就是模型直接丟給IT團隊去部署，模型是否容易部署、以及在生產(chǎn)環(huán)境是否可用都是別人的問題。這增加了模型部署的時間和成本，并產(chǎn)生了大量從未對業(yè)務產(chǎn)生影響模型。

4. 無法形成迭代：

分析專家了解模型的生命周期，為了保證模型的可用性，需要對模型保持更新。他們知道隨著商業(yè)環(huán)境變化，模型的價值會改變，驅(qū)動模型的數(shù)據(jù)模式可能會改變。但他們認為這是另一個時間點的問題。由于他們?nèi)鄙賹I(yè)務問題的足夠認識，往往難以確定如何評估模型的表現(xiàn)，相比模型建立階段，他們在模型迭代、修改上的投入更少。畢竟解決另一個新問題更有趣。這使得老的模型不受監(jiān)控和保護，從而破壞了模型的長期價值。

以上任一問題都可能使構(gòu)建出來的模型毫無商業(yè)價值，真正需要利用分析的組織，特別是數(shù)據(jù)挖掘、預測和機器學習等更高級的分析，必須避免這些問題。

解決這些問題需要明確、清晰地關(guān)注決策，圍繞著決策展開，包括需要改善的決策方法，改善意味著什么，做能實際改善決策的分析模型，設計可以輔助決策的系統(tǒng)，還需要明確在怎樣的外部環(huán)境下需要重新評估模型。雷鋒網(wǎng)將關(guān)注Taylo后續(xù)關(guān)于數(shù)據(jù)挖掘的文章，敬請期待。

數(shù)據(jù)挖掘數(shù)據(jù)準備