一張圖看懂?dāng)?shù)據(jù)科學(xué)家、數(shù)據(jù)工程師和軟件工程師之間的區(qū)別

責(zé)任編輯:editor007

作者:三川

2017-03-21 18:17:32

摘自:雷鋒網(wǎng)

對于數(shù)據(jù)管理工作的核心角色:數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師和軟件工程師,過去幾年見證了他們越來越清晰的定位。對于新興職位“數(shù)據(jù)工程師”

大家都知道,這三種角色各有不同定位,也知道他們之間有許多一致的地方,但是否能講明白這其中的區(qū)別呢?

國外 ETL 服務(wù)商 Stitch 的 CEO Jake Stein,近日對這個話題進行了總結(jié)。他還繪制了一張工具圖,來呈現(xiàn)他們在日常工具使用上的不同。對于新手,也可以通過這張圖來看典型的“數(shù)據(jù)科學(xué)家”、“數(shù)據(jù)工程師”和“軟件工程師”都要掌握哪些工具。

Jake Stein:隨著數(shù)據(jù)的爆炸式增長,對數(shù)據(jù)處理的專家技能需求也隨之井噴。這帶來的結(jié)果之一,是更精細的分工。對于數(shù)據(jù)管理工作的核心角色:數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師和軟件工程師,過去幾年見證了他們越來越清晰的定位。

對于新興職位“數(shù)據(jù)工程師”,它算是“軟件工程師”下面新浮現(xiàn)出的一個子類別。單列出該職位是一項英美近年來的趨勢。但在許多公司,遷移、管理數(shù)據(jù)仍舊是軟件工程師的活。

一張圖看懂?dāng)?shù)據(jù)科學(xué)家、數(shù)據(jù)工程師和軟件工程師之間的區(qū)別

  三種數(shù)據(jù)職位的不同技能需求

職能概括

軟件工程師

軟件工程師干的活兒是開發(fā)應(yīng)用和系統(tǒng)。這過程中的每一個環(huán)節(jié),從設(shè)計、寫代碼、測試到檢查,開發(fā)者都要參與。生成數(shù)據(jù)的產(chǎn)品都是他們開發(fā)的。軟件工程是三個角色中最古老的一個,并且有相當(dāng)成熟的方法體系和工具庫。

工作內(nèi)容包括:

前端、后端開發(fā)

網(wǎng)頁應(yīng)用

移動應(yīng)用

操作系統(tǒng)開發(fā)

軟件設(shè)計

數(shù)據(jù)工程師

數(shù)據(jù)工程師需要開發(fā)能對數(shù)據(jù)進行整合、存儲和提取的系統(tǒng),并從軟件工程師開發(fā)的應(yīng)用和系統(tǒng)中獲取數(shù)據(jù)。數(shù)據(jù)工程的誕生,是作為軟件工程大類下的一個更細分的技能類別。據(jù)雷鋒網(wǎng)了解,根據(jù)國外統(tǒng)計,40% 的數(shù)據(jù)工程師原本是軟件工程師。雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))獲知,這是目前一個很普遍的職業(yè)發(fā)展道路(軟件工程師專注做數(shù)據(jù)工程)。

工作內(nèi)容包括:

高級數(shù)據(jù)結(jié)構(gòu)

分布式計算

并發(fā)程序設(shè)計

使用 Hadoop, Spark, Kafka, Hive 等新工具

開發(fā)ETL/數(shù)據(jù)流水線(data pipelines)

數(shù)據(jù)科學(xué)家

數(shù)據(jù)科學(xué)家的職責(zé)是基于數(shù)據(jù)作分析。

或許有一只想要更好理解消費者行為的團隊,僅僅做一個單次分析。也可能是開發(fā)一個機器學(xué)習(xí)算法,然后將之在軟件工程師和數(shù)據(jù)工程師開發(fā)的代碼基礎(chǔ)上執(zhí)行。

工作內(nèi)容包括:

數(shù)據(jù)建模

機器學(xué)習(xí)

算法

商業(yè)智能的 dashboards

這些角色定位仍在進化之中。有些大公司從軟件工程團隊中拉出數(shù)據(jù)工程師,組建一支中央數(shù)據(jù)團隊。這樣,基礎(chǔ)設(shè)施和數(shù)據(jù)分析工作能在一起。雷鋒網(wǎng)獲知,有些案例中,數(shù)據(jù)科學(xué)家既需要做數(shù)據(jù)分析,也需要做數(shù)據(jù)整合。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號