在2016年的美國(guó),數(shù)據(jù)科學(xué)家已經(jīng)被冠以“最佳工作”的頭銜,數(shù)據(jù)科學(xué)家的定義以及成為一名出色數(shù)據(jù)科學(xué)家所需的技能一直處于不斷的變化之中。科技和商業(yè)需求方面的進(jìn)步驅(qū)使著數(shù)據(jù)科學(xué)家隨著行業(yè)的不斷變化而不停的進(jìn)化。在這片文章中,我們將會(huì)近距離的看一看在2016年當(dāng)中,作為一名數(shù)據(jù)科學(xué)家應(yīng)該扮演何種角色。
Dave Holtz寫道,小小的“數(shù)據(jù)科學(xué)家”這樣的崗位頭銜,經(jīng)常被充當(dāng)一個(gè)空白頭銜來(lái)用,其作用就是說(shuō)明數(shù)據(jù)科學(xué)家這樣的崗位所涉及到一系列工作,其實(shí)與其他工作有著天壤之別的差異。他把其中的原因歸咎于數(shù)據(jù)科學(xué)領(lǐng)域仍然處于嬰兒期并且人們對(duì)數(shù)據(jù)科學(xué)家的定義也并不是如此明確。采用了這樣一個(gè)屬于跨學(xué)科領(lǐng)域的包羅萬(wàn)象的頭銜,數(shù)據(jù)科學(xué)家的工作就是從海量的數(shù)據(jù)當(dāng)中以各種形式提取出人們所需要的知識(shí)或者是對(duì)于事物的洞察力。
大數(shù)據(jù)時(shí)代的年齡取決于我們自身,而且此刻它就停留在我們面前?,F(xiàn)在我們收集到的數(shù)據(jù)量比以往任何時(shí)期都要龐大,而且伴隨著時(shí)間的流逝,從數(shù)據(jù)中提取有價(jià)值的信息將會(huì)變得越來(lái)越錯(cuò)綜復(fù)雜,并且需要更高超的技術(shù)。大數(shù)據(jù)經(jīng)濟(jì)背后的邏輯正在以難以想象和預(yù)測(cè)的方式影響著我們每個(gè)人的生活。我們?nèi)粘I钪性炀偷拿恳粋€(gè)電子信息化的行為所產(chǎn)生的數(shù)據(jù),最后都將會(huì)被用于數(shù)據(jù)統(tǒng)計(jì),我們也可以借此洞察產(chǎn)業(yè)的發(fā)展。
作為消費(fèi)者經(jīng)濟(jì)的參與者,當(dāng)我們與任何一個(gè)網(wǎng)站或者電子化服務(wù)有所接觸的時(shí)候,我們每個(gè)人都會(huì)被當(dāng)成 數(shù)據(jù)挖掘 的對(duì)象,而且數(shù)據(jù)科學(xué)家就在那里使用計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)分析學(xué)以及錯(cuò)綜復(fù)雜的商業(yè)知識(shí)相結(jié)合的方式對(duì)我們提供的數(shù)據(jù)進(jìn)行收集、清洗、分析以及預(yù)測(cè)。
下面這張圖為我們展示了一名數(shù)據(jù)科學(xué)家所需要具備的技能組合。我們可以發(fā)現(xiàn),和典型的大數(shù)據(jù)開(kāi)發(fā)者或者商業(yè)分析專員相比,他的職責(zé)是多種技能和經(jīng)驗(yàn)的有效組合。
圖1:數(shù)據(jù)科學(xué)家的技能組合
是什么讓數(shù)據(jù)科學(xué)家有別于他人,是看起來(lái)比較類似的數(shù)據(jù)工作嗎?Rivera和Haverson提示我們說(shuō),以前的數(shù)據(jù)專家總是把工作的精力集中到數(shù)據(jù)的演示和遷移,而數(shù)據(jù)科學(xué)家更趨向于從數(shù)學(xué)角度出發(fā),主要精力在于從過(guò)去和目前的數(shù)據(jù)中鑒別出各種模式,并從中得到啟發(fā)。如果從字面意思進(jìn)行理解的話,“科學(xué)”表示通過(guò)系統(tǒng)性的學(xué)習(xí)而得到的知識(shí);“數(shù)據(jù)”則意味著定性或定量變量的信息庫(kù)——因此,從字面上看,一名數(shù)據(jù)科學(xué)家可以被定義為一個(gè)對(duì)組織和信息的屬性進(jìn)行系統(tǒng)性研究的人士。
盡管統(tǒng)計(jì)學(xué)家和其他研究數(shù)據(jù)分析的人士扮演著至關(guān)重要的角色,但是數(shù)據(jù)科學(xué)家的角色,就像Anjul Bhambari先生描述的那樣,一部分是分析師,一部分是藝術(shù)家,并且必定會(huì)為傳統(tǒng)數(shù)據(jù)的分析和使用方式帶來(lái)全新的變革。
社會(huì)對(duì)數(shù)據(jù)科學(xué)家的需求與日俱增商務(wù)人際網(wǎng)絡(luò)LinkedIn的成功,就是一個(gè)數(shù)據(jù)科學(xué)家通過(guò)數(shù)據(jù)為商業(yè)智能帶去好處和利益的鮮活案例。當(dāng)一家企業(yè)主要依靠他擁有的三億八千萬(wàn)用戶之間互聯(lián)的數(shù)據(jù)轉(zhuǎn)換來(lái)盈利時(shí),LinkedIn正在利用這些專業(yè)人才的好奇心來(lái)探尋大數(shù)據(jù)當(dāng)中的新大陸。
LinkedIn和其他類似Facebook以及Google這樣的知識(shí)產(chǎn)業(yè)正在利用數(shù)據(jù)科學(xué)家的角色將體量龐大且抽象的數(shù)據(jù)進(jìn)行結(jié)構(gòu)化建設(shè),從數(shù)據(jù)值和變量之間的系統(tǒng)性關(guān)聯(lián)當(dāng)中界定其自身所蘊(yùn)含的機(jī)密。
最近,由KPMG發(fā)起的一份調(diào)查報(bào)告顯示,99%的被調(diào)查對(duì)象認(rèn)為大數(shù)據(jù)分析對(duì)他們下一年的戰(zhàn)略規(guī)劃有著舉足輕重的作用。等到了2020年,企業(yè)發(fā)展過(guò)程中每天產(chǎn)生的數(shù)據(jù)量將會(huì)超過(guò)240艾字節(jié),到了那個(gè)時(shí)候,企業(yè)會(huì)發(fā)現(xiàn),對(duì)于可以從龐大數(shù)據(jù)庫(kù)中提取有價(jià)值信息的數(shù)據(jù)科學(xué)家的需求,將會(huì)比以前更重要。然而,一篇由Travis Wright撰寫的文章說(shuō),對(duì)于數(shù)據(jù)科學(xué)家的需求將會(huì)遠(yuǎn)遠(yuǎn)超過(guò)目前社會(huì)能夠提供的水平,并且單單在美國(guó)的那些公司就需要雇傭14萬(wàn)至19萬(wàn)名數(shù)據(jù)科學(xué)家,前提是這些公司會(huì)繼續(xù)跟隨數(shù)據(jù)經(jīng)濟(jì)帶來(lái)的效益。
但是出乎我們意料的是,數(shù)據(jù)科學(xué)家的平均工資卻存在著很多的矛盾,然而,我們清楚的是,該職位的平均工資確實(shí)會(huì)隨著對(duì)數(shù)據(jù)科學(xué)家需求的增長(zhǎng)迎來(lái)更高的工資待遇。如果雇主期待候選人可以擁有數(shù)據(jù)挖掘算法經(jīng)驗(yàn);能夠完全使用像R和Python這樣的語(yǔ)言開(kāi)展工作;在大型數(shù)據(jù)庫(kù)(類似SQL)方面有工作經(jīng)驗(yàn);可以執(zhí)行Java應(yīng)用;可以執(zhí)行NoSQL數(shù)據(jù)庫(kù)——并且候選人還可以和非專業(yè)技術(shù)人員交流以上所有工作方面的事宜,那么想得到約為12萬(wàn)美金的年薪看起來(lái)并非如此遙遠(yuǎn)的事情。
數(shù)據(jù)科學(xué)家的作用盡管一名數(shù)據(jù)科學(xué)家的職能超越很多傳統(tǒng)的數(shù)據(jù)分析師的職務(wù),其中也有很多顯而易見(jiàn)的區(qū)別。
一名數(shù)據(jù)分析師或建筑師能夠從龐大的數(shù)據(jù)庫(kù)當(dāng)中提取信息。然而他們卻被SQL查詢和用于切割數(shù)據(jù)庫(kù)的軟件分析包所限制。通過(guò)使用機(jī)器學(xué)習(xí)的高級(jí)知識(shí)和編程/工程,數(shù)據(jù)科學(xué)家可以按照他們自己的意愿操作數(shù)據(jù)從而揭露出更深層次的發(fā)現(xiàn)。他們卻不會(huì)因這些程序而受到約束。
典型的數(shù)據(jù)分析專員的做法就是回顧過(guò)去產(chǎn)生的數(shù)據(jù)以及所發(fā)生的事件,但是一名數(shù)據(jù)科學(xué)家的做法必須超越于此并著眼于未來(lái)。通過(guò)使用高級(jí)統(tǒng)計(jì)方式和復(fù)雜的數(shù)據(jù)建模,數(shù)據(jù)科學(xué)家必須發(fā)現(xiàn)其中的模式,還得對(duì)未來(lái)做出預(yù)測(cè)。
數(shù)據(jù)科學(xué)家需要具備的技能成功的數(shù)據(jù)分析依賴于數(shù)據(jù)的清理、整合以及轉(zhuǎn)換——關(guān)鍵的是,這需要所有數(shù)據(jù)科學(xué)家必須擁有所有技能的整合能力。如果將你自己的科學(xué)背景與計(jì)算和分析技巧相結(jié)合的話,完全可以讓自己更上一層樓。
但還是讓我們更深入的挖掘一下,成為一名數(shù)據(jù)科學(xué)家所需具備的實(shí)際技能吧。Data Floq公司的CEO,Mark van Rijmenam先生向我們推薦說(shuō),數(shù)據(jù)科學(xué)家應(yīng)該具備以下的技能:統(tǒng)計(jì)、數(shù)學(xué)和倫理,當(dāng)然也得包括相當(dāng)高的預(yù)測(cè)建模經(jīng)驗(yàn),以便于為了找出正確的問(wèn)題和相應(yīng)正確的答案而構(gòu)建出必要的算法。
盡管一位數(shù)據(jù)科學(xué)家可能執(zhí)行的技能和不同的崗位職能很多,但來(lái)自LinkedIn的Ferris Jumah又進(jìn)一步為我們整潔地歸納出所需的技能。
一名數(shù)據(jù)科學(xué)家必須:
用數(shù)學(xué)的思維方式看待數(shù)據(jù)。了解一些像機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、數(shù)據(jù)分析以及統(tǒng)計(jì)方面的知識(shí)非常重要。一名數(shù)據(jù)科學(xué)家需要從數(shù)學(xué)的角度對(duì)數(shù)據(jù)進(jìn)行詮釋和演示。使用通用語(yǔ)言進(jìn)行數(shù)據(jù)的獲取、開(kāi)采以及建模。掌握統(tǒng)計(jì)編程語(yǔ)言也很重要。類似R,Python或者 MATLAB這樣的語(yǔ)言,還有SQL這樣的數(shù)據(jù)庫(kù)查詢語(yǔ)言也是當(dāng)下最受歡迎且比較搶手的語(yǔ)言。數(shù)據(jù)提取、研究和假設(shè)測(cè)試是數(shù)據(jù)科學(xué)實(shí)踐的核心。培養(yǎng)強(qiáng)大的計(jì)算機(jī)科學(xué)和軟件工程背景。這個(gè)要求數(shù)據(jù)科學(xué)家培養(yǎng)包括Java、C++或者算法和Hadoop方面的知識(shí)。這些技能可以用來(lái)建設(shè)數(shù)據(jù)系統(tǒng)。圖2:數(shù)據(jù)科學(xué)所關(guān)注的領(lǐng)域
數(shù)據(jù)科學(xué)家用到的工具與典型的程序員不同的的是,程序員使用標(biāo)準(zhǔn)化的工具,而數(shù)據(jù)科學(xué)家趨向于使用大量的總是不斷改進(jìn)的工具。這是因?yàn)閿?shù)據(jù)科學(xué)家的世界正在快速的進(jìn)化,很多新的工具還不夠成熟和完善。下面我們來(lái)列舉一些所必要的工具:
數(shù)據(jù)分析工具:
這里所指的工具實(shí)際上僅僅是數(shù)據(jù)科學(xué)家使用的用于數(shù)據(jù)提取和分析的編程語(yǔ)言。較為典型的工具就是Python、R和 SQL。
數(shù)據(jù)倉(cāng)庫(kù)工具:
數(shù)據(jù)科學(xué)可以選擇擁有自己的數(shù)據(jù)庫(kù),他們可以在這里進(jìn)行數(shù)據(jù)的提取與分析。MySQL就是一款最受歡迎的處理體量較為合理的數(shù)據(jù)庫(kù)的軟件。當(dāng)話題轉(zhuǎn)到大數(shù)據(jù)領(lǐng)域時(shí),他們通常會(huì)使用Hive或者Redshift這樣的程序。也許你會(huì)吃驚的問(wèn),使用CSV文件的數(shù)據(jù)科學(xué)家還會(huì)支撐多久。
數(shù)據(jù) 可視化 工具:
我們經(jīng)常提到的最普通的數(shù)據(jù)可視化工具是D3.js和Tableau。對(duì)于D3.js而言,如果你能想象出數(shù)據(jù)可視化的樣子,那么你就可以利用這個(gè)軟件達(dá)到你想要的結(jié)果。目前Tableau是最受歡迎的數(shù)據(jù)可視化軟件,它可以使來(lái)自于數(shù)百條輸入的編譯數(shù)據(jù)輕而易舉的轉(zhuǎn)換為清晰可見(jiàn)的可視化效果。
機(jī)器學(xué)習(xí)工具:
機(jī)器學(xué)習(xí)領(lǐng)域內(nèi)的剛出現(xiàn)的工具也許每天正處于不斷變化之中。廣泛使用的工具也許就非 Scikit-learn莫屬了,該工具利用Python進(jìn)行機(jī)器學(xué)習(xí)。之后當(dāng)然還有SparkMLlib,這是Apache為自己的Spark 和Hadoop使用的機(jī)器學(xué)習(xí)資料館。