R、SQL、Python,看數(shù)據(jù)科學(xué)家最喜歡的編程語言

責(zé)任編輯:editor005

2017-01-11 14:21:35

摘自:51CTO

數(shù)據(jù)的爆炸增長以及公司將數(shù)據(jù)轉(zhuǎn)化為商業(yè)價值的巨大可能性,不斷增加著市場對數(shù)據(jù)科學(xué)家的需求。除了基礎(chǔ)的數(shù)據(jù)科學(xué)相關(guān)的技能,編程是數(shù)據(jù)科學(xué)家務(wù)必要具備的五種主要能力之一,即使就專業(yè)知識而言這不是最相關(guān)的。

迄今為止世界范圍內(nèi)已經(jīng)有超過200位數(shù)據(jù)科學(xué)家參與了調(diào)查,然而結(jié)果顯示并沒有一種在數(shù)據(jù)科學(xué)領(lǐng)域占絕對優(yōu)勢的編程語言,但是也似乎主要集中在有限幾個選項里:幾乎96%的參與者斷言至少要用R,SQL或者Phython中的一種。

數(shù)據(jù)的爆炸增長以及公司將數(shù)據(jù)轉(zhuǎn)化為商業(yè)價值的巨大可能性,不斷增加著市場對數(shù)據(jù)科學(xué)家的需求。

但是,一個合格的數(shù)據(jù)科學(xué)家必須具備哪些技能,擁有什么樣的教育背景呢?數(shù)據(jù)科學(xué)家在團(tuán)隊中的角色是什么?數(shù)據(jù)科學(xué)家大多使用什么工具和編程語言呢?這些就是米蘭理工大學(xué)的大數(shù)據(jù)分析觀測臺通過一項針對數(shù)據(jù)科學(xué)家的國際調(diào)查正在研究的部分問題。如果你的工作與數(shù)據(jù)有關(guān),也可以支持一下這個完全匿名的調(diào)查( survey)。

除了基礎(chǔ)的數(shù)據(jù)科學(xué)相關(guān)的技能,編程是數(shù)據(jù)科學(xué)家務(wù)必要具備的五種主要能力之一,即使就專業(yè)知識而言這不是最相關(guān)的。

迄今為止世界范圍內(nèi)已經(jīng)有超過200位數(shù)據(jù)科學(xué)家參與了調(diào)查,然而結(jié)果顯示并沒有一種在數(shù)據(jù)科學(xué)領(lǐng)域占絕對優(yōu)勢的編程語言,但是也似乎主要集中在有限幾個選項里:幾乎96%的參與者斷言至少要用R,SQL或者Phython中的一種。

值得一提的是,當(dāng)前的調(diào)查中排名第一的是53%的數(shù)據(jù)科學(xué)家選擇的的由R Foundation for Statistical Computing提供支持的R語言。一開始R主要是在統(tǒng)計學(xué)家或?qū)W術(shù)圈內(nèi)流行,但近幾年被相當(dāng)多的應(yīng)用于數(shù)據(jù)科學(xué)。如今R是最受歡迎的開源語言之一很多大型的網(wǎng)絡(luò)社區(qū)都支持它。

即使早在20世紀(jì)70年代初就得以發(fā)展,SQL在當(dāng)今仍然發(fā)揮著重要作用(約49%的數(shù)據(jù)科學(xué)家選擇SQL,排名第二)。盡管SQL不太適合處理非結(jié)構(gòu)化的數(shù)據(jù)組(典型的比如大數(shù)據(jù)),但是分析組織中結(jié)構(gòu)化的數(shù)據(jù)仍然很有必要,而SQL就非常適合用來處理這類數(shù)據(jù)。

排名第三的Python(43%)因為靈活而且相當(dāng)容易上手,近幾年大受歡迎。和R語言一樣,也有很多大型社區(qū)致力于促進(jìn)Python的提高并且建立一些特定的packages。

前五名中最后兩個分別是Unix Shell/AWK/Gawk(15%)和Java(8%)。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號