數(shù)據(jù)科學(xué)是一門跨學(xué)科的科學(xué),它可以從結(jié)構(gòu)化或非結(jié)構(gòu)化的各種形式的數(shù)據(jù)中提取知識和見解。隨著數(shù)據(jù)科學(xué)工具自動化程度的提高,無論是在接地氣的零售領(lǐng)域,還是在高大上的基因領(lǐng)域,數(shù)據(jù)科學(xué)都在被用來進行知識發(fā)現(xiàn)和預(yù)測分析。同時,隨著傳感器、物聯(lián)網(wǎng)的發(fā)展,未來幾年數(shù)據(jù)科學(xué)對社會的推動有望加速。
那么,數(shù)據(jù)科學(xué)的典型步驟是什么樣的?企業(yè)如何最大化其數(shù)據(jù)資產(chǎn)價值呢?
1.了解目標(biāo)問題
在進行數(shù)據(jù)科學(xué)的具體操作之前,首先要充分了解你想要解決的問題,征求相關(guān)領(lǐng)域?qū)<业膸椭ń忉寴I(yè)務(wù)問題、提供數(shù)據(jù)集、確定項目目標(biāo)等。很多數(shù)據(jù)科學(xué)項目失敗的原因就是一開始就沒有非常明確的目標(biāo),導(dǎo)致最終效果不理想。為了了解問題,你可能要與市場營銷、財務(wù)、運營、IT甚至人力資源部門的同事進行交流,而且會收到各方不同的意見或建議,盡管有時候這會讓人崩潰,但是對于數(shù)據(jù)項目的健康推進來說,這個過程還是不可或缺的。
開始數(shù)據(jù)項目的正確方法是找出業(yè)務(wù)最短板,然后順著這個問題抽絲剝繭,分析數(shù)據(jù)解決問題。有時候業(yè)務(wù)問題與數(shù)據(jù)項目之間會有非常明確的對應(yīng)關(guān)系,但是有時候業(yè)務(wù)問題和數(shù)據(jù)項目之間的聯(lián)系并不那么明顯,需要分多個步驟來將業(yè)務(wù)問題與數(shù)據(jù)項目逐一映射起來。數(shù)據(jù)項目的發(fā)起和最終驅(qū)動力,往往都是來自業(yè)務(wù)部門需求(例如財務(wù)、銷售、運營等),因此,多與這些部門的同事交流,會讓之后的數(shù)據(jù)工作事半功倍。
2.找到合適數(shù)據(jù)
有些數(shù)據(jù)可能是來自內(nèi)部業(yè)務(wù),例如電商應(yīng)用的數(shù)據(jù),但是如今隨著社交網(wǎng)絡(luò)的發(fā)展,數(shù)據(jù)項目的數(shù)據(jù)已經(jīng)不能局限于企業(yè)本身的數(shù)據(jù),必須包含來自各種外部來源的數(shù)據(jù),同時也包括非結(jié)構(gòu)化數(shù)據(jù)來源、如社交媒體甚至電子郵件。物聯(lián)網(wǎng)傳感器是另一個很大的數(shù)據(jù)來源。因此,數(shù)據(jù)采集可能需要一定的創(chuàng)造力,在領(lǐng)域?qū)<业膸椭赂嗟厥占杏玫臄?shù)據(jù)。
3.數(shù)據(jù)清洗轉(zhuǎn)換
在項目早期,數(shù)據(jù)清洗轉(zhuǎn)換非常重要,以便將原始數(shù)據(jù)清理并轉(zhuǎn)換為更適合機器學(xué)習(xí)的形式。鑒于一些企業(yè)數(shù)據(jù)的狀態(tài)比較差,此步驟可能需要花費相當(dāng)長的時間和精力,通??烧加酶哌_75%的數(shù)據(jù)項目的時間和成本。在數(shù)據(jù)轉(zhuǎn)換的過程中,記錄所有數(shù)據(jù)轉(zhuǎn)換日志很重要,因為轉(zhuǎn)化過程會成為數(shù)據(jù)重新利用時的參考。
4.探索性數(shù)據(jù)分析
探索性數(shù)據(jù)分析是指使用統(tǒng)計方法和數(shù)據(jù)可視化來嘗試發(fā)現(xiàn)數(shù)據(jù)中有趣的特征和趨勢。有時,只需要基于原始數(shù)據(jù)(或原始數(shù)據(jù)的樣本)的簡單繪圖就可以顯示出非常重要的趨勢或關(guān)系,這將有利于指導(dǎo)數(shù)據(jù)項目的方向。探索性數(shù)據(jù)分析可以在花費較少的時間和成本的情況下確定你的項目應(yīng)該采用的特定機器學(xué)習(xí)算法和使用的最佳特征變量。這一步驟可能需要與業(yè)務(wù)專家探討探索性數(shù)據(jù)分析過程中顯示出來的特征,以免發(fā)生遺漏,錯過重要的特征和線索。
5.選擇合適算法
確定基本方向后就要選擇適合于解決問題的機器學(xué)習(xí)算法,將數(shù)據(jù)分成訓(xùn)練數(shù)據(jù)、交叉驗證數(shù)據(jù)和測試集。在這一階段,需要對很多機器學(xué)習(xí)類型進行測試,是做定量預(yù)測、定性分類,還是只是使用聚類技術(shù)進行探索?在測試之后,你就能更容易地選出最適合用于特定應(yīng)用的算法,如果之前有過此類研究,則在選擇算法的時候會相對容易很多。
6.驗證模型功效
沒有一種算法能夠在處理所有數(shù)據(jù)集時的各項指標(biāo)都優(yōu)于其他算法。在特定的數(shù)據(jù)集上,一種特定的算法可能最有效,而另一種算法可能在其他數(shù)據(jù)集上表現(xiàn)更好,選擇最佳算法可能是實踐中數(shù)據(jù)項目最具挑戰(zhàn)性的部分之一。因此,模型的效率評估對于項目的成功與否至關(guān)重要。需要量化給定觀測值的預(yù)測響應(yīng)值在多大程度上接近該觀測值的真實響應(yīng)值。還需要確定模型在處理不同的數(shù)據(jù)集的誤差。
7.講述數(shù)據(jù)故事
數(shù)據(jù)項目的最終結(jié)果可以通過精心設(shè)計的可視化作品來獲得最佳的展示效果。能夠直觀、準(zhǔn)確傳達信息的可視化作品創(chuàng)建起來難度很大,可能需要多次嘗試才能成功。事實上,建立有效的可視化作品需要一定的創(chuàng)造力和藝術(shù)修養(yǎng)。好消息是網(wǎng)上有很多好的可視化的案例可以參考。
完成數(shù)據(jù)科學(xué)過程后,就可以將結(jié)果傳達給管理層了。為了達到更好的效果,需要一個會講“數(shù)據(jù)故事”的人,這個人可以根據(jù)數(shù)據(jù)以更生動的形式將數(shù)據(jù)作品要表達的意思傳達出去。大多數(shù)管理人員沒有數(shù)據(jù)分析或統(tǒng)計數(shù)據(jù)的背景,而數(shù)據(jù)科學(xué)家的工作就是將數(shù)據(jù)全部歸結(jié)為業(yè)務(wù)人員可以理解的形式,因此,講述數(shù)據(jù)的故事是數(shù)據(jù)科學(xué)的一個組成部分。
結(jié)論
在完成這些步驟之后,數(shù)據(jù)項目并沒有結(jié)束,重要的是不斷重復(fù)這個過程,get到查看不同特征變量的預(yù)測能力,評估不同的模型,評估預(yù)測精度的新能力。數(shù)據(jù)項目可能并非讓人一直有成就感,因為數(shù)據(jù)科學(xué)家的真正目的是不斷地證明自己或企業(yè)的一次又一次的錯誤。數(shù)據(jù)科學(xué)是定期尋找現(xiàn)有問題的新答案的過程,當(dāng)你找到那個新答案時,它給你帶來的成就感也是非常巨大的。