迄今為止世界范圍內(nèi)已經(jīng)有超過200位數(shù)據(jù)科學(xué)家參與了調(diào)查,然而結(jié)果顯示并沒有一種在數(shù)據(jù)科學(xué)領(lǐng)域占絕對優(yōu)勢的編程語言,但是也似乎主要集中在有限幾個選項里:幾乎96%的參與者斷言至少要用R,SQL或者Phython中的一種。
數(shù)據(jù)的爆炸增長以及公司將數(shù)據(jù)轉(zhuǎn)化為商業(yè)價值的巨大可能性,不斷增加著市場對數(shù)據(jù)科學(xué)家的需求。
但是,一個合格的數(shù)據(jù)科學(xué)家必須具備哪些技能,擁有什么樣的教育背景呢?數(shù)據(jù)科學(xué)家在團(tuán)隊中的角色是什么?數(shù)據(jù)科學(xué)家大多使用什么工具和編程語言呢?這些就是米蘭理工大學(xué)的大數(shù)據(jù)分析觀測臺通過一項針對數(shù)據(jù)科學(xué)家的國際調(diào)查正在研究的部分問題。如果你的工作與數(shù)據(jù)有關(guān),也可以支持一下這個完全匿名的調(diào)查( survey)。
除了基礎(chǔ)的數(shù)據(jù)科學(xué)相關(guān)的技能,編程是數(shù)據(jù)科學(xué)家務(wù)必要具備的五種主要能力之一,即使就專業(yè)知識而言這不是最相關(guān)的。
迄今為止世界范圍內(nèi)已經(jīng)有超過200位數(shù)據(jù)科學(xué)家參與了調(diào)查,然而結(jié)果顯示并沒有一種在數(shù)據(jù)科學(xué)領(lǐng)域占絕對優(yōu)勢的編程語言,但是也似乎主要集中在有限幾個選項里:幾乎96%的參與者斷言至少要用R,SQL或者Phython中的一種。
值得一提的是,當(dāng)前的調(diào)查中排名第一的是53%的數(shù)據(jù)科學(xué)家選擇的的由R Foundation for Statistical Computing提供支持的R語言。一開始R主要是在統(tǒng)計學(xué)家或?qū)W術(shù)圈內(nèi)流行,但近幾年被相當(dāng)多的應(yīng)用于數(shù)據(jù)科學(xué)。如今R是最受歡迎的開源語言之一很多大型的網(wǎng)絡(luò)社區(qū)都支持它。
即使早在20世紀(jì)70年代初就得以發(fā)展,SQL在當(dāng)今仍然發(fā)揮著重要作用(約49%的數(shù)據(jù)科學(xué)家選擇SQL,排名第二)。盡管SQL不太適合處理非結(jié)構(gòu)化的數(shù)據(jù)組(典型的比如大數(shù)據(jù)),但是分析組織中結(jié)構(gòu)化的數(shù)據(jù)仍然很有必要,而SQL就非常適合用來處理這類數(shù)據(jù)。
排名第三的Python(43%)因為靈活而且相當(dāng)容易上手,近幾年大受歡迎。和R語言一樣,也有很多大型社區(qū)致力于促進(jìn)Python的提高并且建立一些特定的packages。
前五名中最后兩個分別是Unix Shell/AWK/Gawk(15%)和Java(8%)。