摘要:近日北卡來(lái)羅納大學(xué)CTO,一位數(shù)據(jù)科學(xué)家Jefferson Heard分享了多年來(lái)收集沉淀的數(shù)據(jù)分析工具集。請(qǐng)看正文
作為一位萬(wàn)人敬仰的數(shù)據(jù)科學(xué)家,不但需要培育一棵參天技能樹,私人武器庫(kù)里沒有一票玩得轉(zhuǎn)的大火力工具也是沒法在江湖中呼風(fēng)喚雨的。
近日北卡來(lái)羅納大學(xué)CTO,一位數(shù)據(jù)科學(xué)家Jefferson Heard分享了多年來(lái)收集沉淀的數(shù)據(jù)分析工具集:
處理較大、較復(fù)雜的類excel數(shù)據(jù)
Pandas -處理tabular(類似Excel)數(shù)據(jù)的通用工具套件
SQLite – Tabular數(shù)據(jù)庫(kù)格式,能夠處理大規(guī)模數(shù)據(jù)集,同時(shí)也能在桌面環(huán)境運(yùn)行。
PostgreSQL – 企業(yè)級(jí)數(shù)據(jù)庫(kù)系統(tǒng)
處理空間、地理數(shù)據(jù):
PostGIS – Postgres的地理空間數(shù)據(jù)類型擴(kuò)展
Carto – 地理空間數(shù)據(jù)的商業(yè)數(shù)據(jù)挖掘工具
Mapbox – 商業(yè)地圖繪制工具,同時(shí)也是一個(gè)web地圖系統(tǒng)。
Leaflet – 基于網(wǎng)絡(luò)資源和本地?cái)?shù)據(jù)開發(fā)活動(dòng)web地圖的代碼庫(kù)
qGIS – 適用于幾乎所有地理空間和地圖繪制的圖形化GIS工具
處理非常規(guī)數(shù)據(jù):
RethinkDB – 處理實(shí)時(shí)數(shù)據(jù)流非常棒的數(shù)據(jù)庫(kù),正在從商業(yè)轉(zhuǎn)開源,小心使用。
MongoDB – 處理大規(guī)模非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的流行數(shù)據(jù)庫(kù),應(yīng)用于生產(chǎn)環(huán)境需要加小心。
CouchDB – 與MongoDB有些類似但不盡相同。
Cassandra – 圖譜和關(guān)系數(shù)據(jù)庫(kù)
為大規(guī)模數(shù)據(jù)集創(chuàng)建性能代碼:
Pandas – Python下一個(gè)開源數(shù)據(jù)分析的庫(kù),它提供的數(shù)據(jù)結(jié)構(gòu)DataFrame極大的簡(jiǎn)化了數(shù)據(jù)分析過(guò)程中一些繁瑣操作。
Apache Spark – 一個(gè)通用的高性能數(shù)據(jù)處理系統(tǒng)
SciPy and Numpy -可編寫腳本的基于C的數(shù)值算法,能在緊湊的,底層機(jī)器數(shù)據(jù)架構(gòu)上運(yùn)行。
Cython – 使用用C編譯器的Python編譯器,用來(lái)提升Python性能。
PyOpenCL – 在圖形顯卡上進(jìn)行數(shù)值計(jì)算和統(tǒng)計(jì)處理。
數(shù)據(jù)清洗工具
ODO – 在不同數(shù)據(jù)格式間進(jìn)行轉(zhuǎn)換的Python庫(kù)。
OpenRefine – 擁有圖形用戶界面的數(shù)據(jù)發(fā)現(xiàn)和清洗工具
Pandas – 數(shù)據(jù)科學(xué)任務(wù)中用來(lái)處理tabular數(shù)據(jù)的通用Python工具集
Scrapy – Python開發(fā)的一個(gè)快速,高層次的屏幕抓取和web抓取框架,用于抓取web站點(diǎn)并從頁(yè)面中提取結(jié)構(gòu)化的數(shù)據(jù)。
BeautifulSoup – 與Scrapy類似但不盡相同
Scrubadub – 去除個(gè)人身份信息
Arrow – 幫你輕松駕馭日期和時(shí)間戳的Python庫(kù)
DataCleaner – 剔除臟數(shù)據(jù)的Python庫(kù)
Dora – 與DataCleaner功能類似的Python庫(kù)。
數(shù)據(jù)可視化工具
Processing – 交互式開發(fā)交互式可視化內(nèi)容. 推薦讀本:Visualizing
DataD3 – 在web上開發(fā)可視化交互
C3 – 來(lái)自D3的圖表.
Bokeh – 與D3類似, 但基于Python.
matplotlib – 最早的Python數(shù)據(jù)可視化工具集。
Leaflet – 一個(gè)為開發(fā)移動(dòng)設(shè)備友好的互動(dòng)地圖的開源 JavaScript 庫(kù)。
MapBox -詳見地圖工具集。
qGIS – 詳見地圖工具集。
VTK – 在醫(yī)療、和物理研究領(lǐng)域常用的重型可視化工具包。
數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)工具
Weka – 一個(gè)機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘工具包,這里有一本免費(fèi)可讀的參考書
ciKitLearn – 基于Python的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘工具套件。
Orange – 另一個(gè)基于Python的數(shù)據(jù)挖掘工具套件,同樣擁有圖形用戶界面。
TensorFlow – Google開源的多維度圖譜數(shù)學(xué)建模工具。
分享、協(xié)作以及知識(shí)管理工具
Django -基于Python的web框架
Django REST Framework – 為Django網(wǎng)站創(chuàng)建 REST APIs
IRODS – 企業(yè)級(jí)數(shù)據(jù)存儲(chǔ)和管理,包括元數(shù)據(jù)管理和基于規(guī)則的數(shù)據(jù)處理。
Cassandra (useful for metadata and relationship storage) – 一個(gè)存儲(chǔ)和查詢?cè)獢?shù)據(jù)經(jīng)常用到的開源分布式數(shù)據(jù)管理系統(tǒng)
GitLab -GitHub的開源替代品,可搭建私人服務(wù)器。
ReciPy –
Prov – Python implementation of the W3C provenance model
Kanren (部署基于元數(shù)據(jù)和數(shù)據(jù)源信息的業(yè)務(wù)邏輯非常有用) – 一個(gè)描述性Python邏輯編程系統(tǒng),非常適合科學(xué)元數(shù)據(jù)的查詢和基于規(guī)則的處理。