當開源技術(shù)遇上大數(shù)據(jù)創(chuàng)新

責任編輯:zsheng

2018-06-05 21:42:08

摘自:極客網(wǎng)

大數(shù)據(jù)新興技術(shù)不斷涌現(xiàn),讓我們更容易更精準的從海量繁雜的數(shù)據(jù)中提取有用價值。開源作為一種推動大數(shù)據(jù)技術(shù)創(chuàng)新的新模式,正廣受技術(shù)開發(fā)人員的熱愛。

大數(shù)據(jù)新興技術(shù)不斷涌現(xiàn),讓我們更容易更精準的從海量繁雜的數(shù)據(jù)中提取有用價值。開源作為一種推動大數(shù)據(jù)技術(shù)創(chuàng)新的新模式,正廣受技術(shù)開發(fā)人員的熱愛。

一、大數(shù)據(jù)市場前景無限

近年來,我國大數(shù)據(jù)政策頻頻發(fā)布,2014年“大數(shù)據(jù)”的概念首次正式寫入《政府工作報告》,其后的2015年是大數(shù)據(jù)政策頂層設(shè)計年、2016年政策細化落地,國家發(fā)改委、環(huán)保部、工信部、國家林業(yè)局、農(nóng)業(yè)部等均推出了關(guān)于大數(shù)據(jù)的發(fā)展意見和方案,2017年,大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展正從理論研究加速進入應(yīng)用時代,大數(shù)據(jù)與前沿科技的結(jié)合也越來越緊密。2017年,習近平明確要求實施國家大數(shù)據(jù)戰(zhàn)略,加快建設(shè)數(shù)字中國。隨著一系列利好政策的發(fā)布,大數(shù)據(jù)創(chuàng)業(yè)公司不斷涌現(xiàn),風險投資等機構(gòu)也在追逐這個行業(yè)。大數(shù)據(jù)領(lǐng)域的創(chuàng)新創(chuàng)業(yè)變?yōu)槌B(tài),形成了大數(shù)據(jù)領(lǐng)域創(chuàng)新的力量。

大數(shù)據(jù)作為一種不會枯竭并且不斷增值的重要的資源,是經(jīng)濟社會發(fā)展的重要推力,市場前途不可限量。從2014到2020年我國大數(shù)據(jù)市場規(guī)模不斷擴大,其中2017-2018年正是市場高速成長期,大數(shù)據(jù)龍頭企業(yè)較多,小微企業(yè)也分得龐大市場中的一杯羹。大數(shù)據(jù)產(chǎn)業(yè)整體蓬勃,未來向好。

二、開源推動大數(shù)據(jù)技術(shù)創(chuàng)新

開源,就是開放源碼,意味著免費和自由的進行二次開發(fā),如當下最為廣泛使用的hadoop生態(tài)系統(tǒng)。開源大數(shù)據(jù)技術(shù)是一種新一代技術(shù)和構(gòu)架,它以成本較低、以快速的采集、處理和分析技術(shù),從各種超大規(guī)模的數(shù)據(jù)中提取價值。通過開放式的平臺,吸引全球開發(fā)者集智共謀技術(shù)發(fā)展,開源將成為大數(shù)據(jù)技術(shù)創(chuàng)新的主要模式。目前,大數(shù)據(jù)分析處理流程中所使用的關(guān)鍵技術(shù)幾乎都源自開源模式。

開放源代碼對人工智能、區(qū)塊鏈等前沿科技都具有重要影響力。源代碼與這些高技術(shù)的結(jié)合點頗多,創(chuàng)新創(chuàng)業(yè)機會較多,研發(fā)項目在不斷涌現(xiàn)。

國際上較受歡迎的開源大數(shù)據(jù)項目:

1.OpenCog和OpenCogPrime

2018年尖端技術(shù)潮流的一個典型例子——OpenCog項目被設(shè)計為面向虛擬和機器人功能的體系結(jié)構(gòu)。用Python、C ++和Linux上Scheme 編寫,與匹配一般智能和超越人類級別的目的相聯(lián)系。還致力于實現(xiàn)其更加實際的研究和開發(fā)目標,同時精簡其開源產(chǎn)品以實際應(yīng)用。

2.Hyperledger

Hyperledger是在2015年由Linux基金會建立的,該項目最終目標是提供一系列開源的區(qū)塊鏈和其他有用元素的工具箱。作為一個頂尖的科技趨勢,區(qū)塊鏈在2018年的最熱門領(lǐng)域中備受矚目,Gartner將其列入今年企業(yè)的最高戰(zhàn)略趨勢。

3.Kubernetes

Kubernetes是一個開源系統(tǒng),專為部署自動化和容器化應(yīng)用程序的管理而設(shè)計。隨著谷歌的播種,該系統(tǒng)現(xiàn)在處于云原生計算基金會的管理之下。Kubernetes最引人注目的,是它與Docker合作密切。Kubernetes也得到了廣泛和高調(diào)的推動,被Pivotal、Red Hat、OpenShift和IBM等公司支持。

4.TensorFlow

TensorFlow也許是最知名的開源項目,谷歌是該項目的主要倡導(dǎo)者,現(xiàn)已衍化為一個軟件庫,可以用于編程和數(shù)據(jù)流的目的,為廣泛的用例提供服務(wù)。該項目還涉及當前的熱門技術(shù)趨勢,即機器學(xué)習,雖然這項技術(shù)并非是一個新事物,但隨著在追求一系列不同結(jié)果時變得越來越受歡迎,這種技術(shù)一直在獲得牽引力。

5.Vault

Vault是開源項目另一熱點領(lǐng)域,提供了一種在傳輸過程中加密數(shù)據(jù)的工具,并且除了對其它信息進行一般安全管理之外,還越來越關(guān)注GDPR的相關(guān)修訂。Vault的制造商還強調(diào)撤銷功能是最大的亮點,有效保護有價值的數(shù)據(jù)。隨著信息安全問題的不斷加劇,Vault已成為十分重要的開源項目。

我國較突出的開源大數(shù)據(jù)項目:

1. 百度——希望獲得開發(fā)者青睞的 “PaddlePaddle”

2016年9月1日,國內(nèi)第一個機器學(xué)習開源平臺PaddlePaddle誕生。

PaddlePaddle 能在多 GPU,多臺機器上進行并行計算。相比現(xiàn)有深度學(xué)習框架,PaddlePaddle 對開發(fā)者來說有易用性、快速等優(yōu)勢。許多資深開發(fā)者認為PaddlePaddle 的設(shè)計理念與 Caffe 十分相似,懷疑是百度對標 Caffe 開發(fā)出的替代品。業(yè)內(nèi)對 PaddlePaddle 的總體評價是“設(shè)計干凈、簡潔,穩(wěn)定,速度較快。

2. 騰訊——面向企業(yè)的 “Angel”

Angel 將成為PaddlePaddle 之后、BAT 發(fā)布的第二個重磅開源平臺。Angel 是面向機器學(xué)習的分布式計算框架,它為企業(yè)級大規(guī)模機器學(xué)習任務(wù)提供解決方案,可與 Caffe、TensorFlow 和Torch 等業(yè)界主流深度學(xué)習框架很好地兼容。“Angel 采用多種業(yè)界最新技術(shù)和騰訊自主研發(fā)技術(shù)使得 Angel 性能大幅提高,達到 Spark 的數(shù)倍到數(shù)十倍,能在千萬到十億級的特征維度條件下運行。”

3. 阿里巴巴——猶抱琵牌半遮面的 DTPAI

阿里在2015 年就宣布了數(shù)據(jù)挖據(jù)平臺 DTPAI , DTPAI 將集成阿里巴巴核心算法庫,包括特征工程、大規(guī)模機器學(xué)習、深度學(xué)習等等。其次,與百度、騰訊一樣,阿里也很重視旗下產(chǎn)品的易用性。阿里 ODPS 和 iDST 產(chǎn)品經(jīng)理韋嘯表示,DTPAI 支持鼠標拖拽的編程可視化,也支持模型可視化;并且廣泛與MapReduce、Spark、DMLC、R 等開源技術(shù)對接。

4. 山世光——大陸學(xué)界碩果僅存的 SeetaFace

SeetaFace 基于 C++,不依賴于任何第三方的庫函數(shù)。作為一套全自動人臉識別系統(tǒng),它集成了三個核心模塊,即:人臉檢測模塊、面部特征點定位模塊以及人臉特征提取與比對模塊。 SeetaFace 將供學(xué)界和工業(yè)界免費使用。它的開源,有望幫助大量有人臉識別任務(wù)需求的公司與實驗室,在它們的產(chǎn)品服務(wù)中接入 SeetaFace,大幅減少開發(fā)成本。

三、開源大數(shù)據(jù)的發(fā)展趨勢

開源讓越來越多的項目可以直接采用大數(shù)據(jù)技術(shù),不斷的推動著大數(shù)據(jù)的創(chuàng)業(yè)創(chuàng)新,賽智時代分析師認為未來開源大數(shù)據(jù)將向以下三個方向發(fā)展:

1.容器技術(shù)愈受歡迎

容器技術(shù)能夠使代碼在任意環(huán)境中快速地 “接入并運行”,降低企業(yè)時間和資金成本。其速度和靈活性能夠決定促使業(yè)務(wù)成功開展。

2.Hadoop與Spark應(yīng)用增加

據(jù)福瑞斯特研究顯示,Hadoop正以32.9%的速度增長。由于其可以降低企業(yè)成本且可以快速改進,很多企業(yè)表示會繼續(xù)擴大相應(yīng)的技術(shù)應(yīng)用,所以未來Hadoop將會更加普及。而另一位后起之秀Spak在迭代計算上具有比Hadoop更高的效率并且數(shù)據(jù)集操作類型的開發(fā)更廣泛,未來的廣泛應(yīng)用也是指日可待的。

3. 智能開源技術(shù)的應(yīng)用更深入

人工智能正慢慢普及,全新的智能開源解決方案將改變?nèi)藗兒拖到y(tǒng)交互的方式,轉(zhuǎn)變由來已久的工作觀念,加深行業(yè)大數(shù)據(jù)的應(yīng)用。

目前,我國開源產(chǎn)品較國外來講水平不是很高,更多的時候國內(nèi)的企業(yè)還只是開源的使用者和借鑒者,還沒有到發(fā)明創(chuàng)造的階段。雖說技術(shù)的發(fā)展是全球化的,技術(shù)開發(fā)的交互性促進了技術(shù)的不斷突破,然而我們卻不能過分依賴于“拿來主義”,賽智時代分析師認為,抵制以低成本換來高性能的產(chǎn)品或系統(tǒng)的誘惑,加大我國創(chuàng)業(yè)團隊的研發(fā)投入,保持持續(xù)的自主創(chuàng)新才能穩(wěn)定國家產(chǎn)業(yè)的發(fā)展。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號