一位數(shù)據(jù)科學(xué)家的私房工具清單

責(zé)任編輯:editor007

2017-01-23 21:20:16

摘自:IT經(jīng)理網(wǎng)

摘要:近日北卡來(lái)羅納大學(xué)CTO,一位數(shù)據(jù)科學(xué)家Jefferson Heard分享了多年來(lái)收集沉淀的數(shù)據(jù)分析工具集。Orange – 另一個(gè)基于Python的數(shù)據(jù)挖掘工具套件,同樣擁有圖形用戶界面。

摘要:近日北卡來(lái)羅納大學(xué)CTO,一位數(shù)據(jù)科學(xué)家Jefferson Heard分享了多年來(lái)收集沉淀的數(shù)據(jù)分析工具集。請(qǐng)看正文

作為一位萬(wàn)人敬仰的數(shù)據(jù)科學(xué)家,不但需要培育一棵參天技能樹,私人武器庫(kù)里沒有一票玩得轉(zhuǎn)的大火力工具也是沒法在江湖中呼風(fēng)喚雨的。

一位數(shù)據(jù)科學(xué)家的私房工具清單

近日北卡來(lái)羅納大學(xué)CTO,一位數(shù)據(jù)科學(xué)家Jefferson Heard分享了多年來(lái)收集沉淀的數(shù)據(jù)分析工具集:

處理較大、較復(fù)雜的類excel數(shù)據(jù)

Pandas -處理tabular(類似Excel)數(shù)據(jù)的通用工具套件

SQLite – Tabular數(shù)據(jù)庫(kù)格式,能夠處理大規(guī)模數(shù)據(jù)集,同時(shí)也能在桌面環(huán)境運(yùn)行。

PostgreSQL – 企業(yè)級(jí)數(shù)據(jù)庫(kù)系統(tǒng)

處理空間、地理數(shù)據(jù):

PostGIS – Postgres的地理空間數(shù)據(jù)類型擴(kuò)展

Carto – 地理空間數(shù)據(jù)的商業(yè)數(shù)據(jù)挖掘工具

Mapbox – 商業(yè)地圖繪制工具,同時(shí)也是一個(gè)web地圖系統(tǒng)。

Leaflet – 基于網(wǎng)絡(luò)資源和本地?cái)?shù)據(jù)開發(fā)活動(dòng)web地圖的代碼庫(kù)

qGIS – 適用于幾乎所有地理空間和地圖繪制的圖形化GIS工具

處理非常規(guī)數(shù)據(jù):

RethinkDB – 處理實(shí)時(shí)數(shù)據(jù)流非常棒的數(shù)據(jù)庫(kù),正在從商業(yè)轉(zhuǎn)開源,小心使用。

MongoDB – 處理大規(guī)模非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的流行數(shù)據(jù)庫(kù),應(yīng)用于生產(chǎn)環(huán)境需要加小心。

CouchDB – 與MongoDB有些類似但不盡相同。

Cassandra – 圖譜和關(guān)系數(shù)據(jù)庫(kù)

為大規(guī)模數(shù)據(jù)集創(chuàng)建性能代碼:

Pandas – Python下一個(gè)開源數(shù)據(jù)分析的庫(kù),它提供的數(shù)據(jù)結(jié)構(gòu)DataFrame極大的簡(jiǎn)化了數(shù)據(jù)分析過(guò)程中一些繁瑣操作。

Apache Spark – 一個(gè)通用的高性能數(shù)據(jù)處理系統(tǒng)

SciPy and Numpy -可編寫腳本的基于C的數(shù)值算法,能在緊湊的,底層機(jī)器數(shù)據(jù)架構(gòu)上運(yùn)行。

Cython – 使用用C編譯器的Python編譯器,用來(lái)提升Python性能。

PyOpenCL – 在圖形顯卡上進(jìn)行數(shù)值計(jì)算和統(tǒng)計(jì)處理。

數(shù)據(jù)清洗工具

ODO – 在不同數(shù)據(jù)格式間進(jìn)行轉(zhuǎn)換的Python庫(kù)。

OpenRefine – 擁有圖形用戶界面的數(shù)據(jù)發(fā)現(xiàn)和清洗工具

Pandas – 數(shù)據(jù)科學(xué)任務(wù)中用來(lái)處理tabular數(shù)據(jù)的通用Python工具集

Scrapy – Python開發(fā)的一個(gè)快速,高層次的屏幕抓取和web抓取框架,用于抓取web站點(diǎn)并從頁(yè)面中提取結(jié)構(gòu)化的數(shù)據(jù)。

BeautifulSoup – 與Scrapy類似但不盡相同

Scrubadub – 去除個(gè)人身份信息

Arrow – 幫你輕松駕馭日期和時(shí)間戳的Python庫(kù)

DataCleaner – 剔除臟數(shù)據(jù)的Python庫(kù)

Dora – 與DataCleaner功能類似的Python庫(kù)。

數(shù)據(jù)可視化工具

Processing – 交互式開發(fā)交互式可視化內(nèi)容. 推薦讀本:Visualizing

DataD3 – 在web上開發(fā)可視化交互

C3 – 來(lái)自D3的圖表.

Bokeh – 與D3類似, 但基于Python.

matplotlib – 最早的Python數(shù)據(jù)可視化工具集。

Leaflet – 一個(gè)為開發(fā)移動(dòng)設(shè)備友好的互動(dòng)地圖的開源 JavaScript 庫(kù)。

MapBox -詳見地圖工具集。

qGIS – 詳見地圖工具集。

VTK – 在醫(yī)療、和物理研究領(lǐng)域常用的重型可視化工具包。

數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)工具

Weka – 一個(gè)機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘工具包,這里有一本免費(fèi)可讀的參考書

ciKitLearn – 基于Python的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘工具套件。

Orange – 另一個(gè)基于Python的數(shù)據(jù)挖掘工具套件,同樣擁有圖形用戶界面。

TensorFlow – Google開源的多維度圖譜數(shù)學(xué)建模工具。

分享、協(xié)作以及知識(shí)管理工具

Django -基于Python的web框架

Django REST Framework – 為Django網(wǎng)站創(chuàng)建 REST APIs

IRODS – 企業(yè)級(jí)數(shù)據(jù)存儲(chǔ)和管理,包括元數(shù)據(jù)管理和基于規(guī)則的數(shù)據(jù)處理。

Cassandra (useful for metadata and relationship storage) – 一個(gè)存儲(chǔ)和查詢?cè)獢?shù)據(jù)經(jīng)常用到的開源分布式數(shù)據(jù)管理系統(tǒng)

GitLab -GitHub的開源替代品,可搭建私人服務(wù)器。

ReciPy –

Prov – Python implementation of the W3C provenance model

Kanren (部署基于元數(shù)據(jù)和數(shù)據(jù)源信息的業(yè)務(wù)邏輯非常有用) – 一個(gè)描述性Python邏輯編程系統(tǒng),非常適合科學(xué)元數(shù)據(jù)的查詢和基于規(guī)則的處理。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)