5月20日,由搜索引擎公司百度牽頭發(fā)起的全球最大分布式深度機(jī)器學(xué)習(xí)開源平臺(https://dmlc.github.io/)正式面向公眾開放。據(jù)悉,該平臺隸屬于名為“深盟”的開源組織,該組織核心開發(fā)者來自百度深度學(xué)習(xí)研究院(IDL),微軟亞洲研究院、華盛頓大學(xué)、紐約大學(xué)、香港科技大學(xué),卡耐基·梅隴大學(xué)等知名公司和高校。通過這一開源平臺,世界各地的開發(fā)者們可以免費獲得更優(yōu)質(zhì)和更容易使用的分布式機(jī)器學(xué)習(xí)算法源碼,從而大幅降低開發(fā)和部署分布式機(jī)器學(xué)習(xí)系統(tǒng)及相關(guān)應(yīng)用的門檻。包括今日頭條、汽車之家等在內(nèi)的多家公司已經(jīng)通過該開放平臺受益。
“此次我們推出的深度機(jī)器學(xué)習(xí)開源平臺,和其他開源軟件一樣沒有任何使用限制,個人和機(jī)構(gòu)均可以自由使用。而其最大的優(yōu)勢,在于已經(jīng)達(dá)到了工業(yè)級應(yīng)用標(biāo)準(zhǔn)。”深盟項目負(fù)責(zé)人之一、百度深度學(xué)習(xí)研究院李沐介紹稱,目前業(yè)內(nèi)流行的分布式平臺例如Spark都基于JAVA語言,開發(fā)難度雖然較低,但通常在性能上有所缺陷。而此次“深盟”推出的深度機(jī)器學(xué)習(xí)開源平臺,其核心則完全采用C++語言,加之所開放的算法經(jīng)過了多家公司的實踐,因此性能非常成熟穩(wěn)定,已經(jīng)達(dá)到了工業(yè)級應(yīng)用水平,能夠滿足各種工業(yè)界需求。
機(jī)器學(xué)習(xí)是人工智能研究領(lǐng)域中的重要方向,而深度學(xué)習(xí)則是近年機(jī)器學(xué)習(xí)領(lǐng)域的一個重大突破,作為目前最接近人腦的智能學(xué)習(xí)方法,深度學(xué)習(xí)可以完成需要高度抽象特征的人工智能任務(wù),如語音識別、圖像識別和檢索、自然語言理解等,有著廣泛的應(yīng)用前景,廣受業(yè)界追捧。在深度學(xué)習(xí)的研發(fā)上,百度有著領(lǐng)先世界的優(yōu)勢。早在2013年,其便組建了百度IDL(深度學(xué)習(xí)研究院),面向全球延攬一流學(xué)術(shù)人才,并嘗試將深度學(xué)習(xí)應(yīng)用于語音識別和圖像識別、檢索,以及廣告CTR預(yù)估(Click-Through-RatePrediction,pCTR)等領(lǐng)域。2014年,百度又將AndrewNg(吳恩達(dá))招致麾下,吳恩達(dá)是斯坦福大學(xué)人工智能實驗室主任,入選過《時代》雜志年度全球最有影響力100人,是16位科技界的代表之一。截至目前,百度在深度學(xué)習(xí)上已經(jīng)取得巨大成功,到目前為止,已經(jīng)有超過8項深度學(xué)習(xí)技術(shù)在百度產(chǎn)品上線,在用GPU提升計算效率,處理海量訓(xùn)練數(shù)據(jù),語音識別,OCR識別,人臉識別,圖像搜索等領(lǐng)域,均達(dá)到國際領(lǐng)先水平。
“我們推出這個項目最大的愿望,就是希望通過開放和分享百度在分布式深度機(jī)器學(xué)習(xí)及大數(shù)據(jù)領(lǐng)域的技術(shù)經(jīng)驗,將分布式機(jī)器學(xué)習(xí)的門檻降低,使得更多個人和機(jī)構(gòu)能夠享受大數(shù)據(jù)帶來的便利。同時也希望聯(lián)動更多來自工業(yè)界和學(xué)術(shù)界的開發(fā)者們,共同推動全球范圍內(nèi)分布式深度機(jī)器學(xué)習(xí)技術(shù)的研發(fā)及商業(yè)化應(yīng)用,也希望能吸引更多的開發(fā)者和項目的加入”李沐表示。
據(jù)了解,截止目前,“深盟”分布式深度機(jī)器學(xué)習(xí)開源平臺的已有組件已成功覆蓋三類最常用的機(jī)器學(xué)習(xí)算法,包括被廣泛用于排序的決策樹模型(GBDT),用于點擊預(yù)測的稀疏線性模型(如SparseLogisticRegression),以及目前的研究熱點深度學(xué)習(xí)。未來“深盟”將致力于將實現(xiàn)和測試更多常用的機(jī)器學(xué)習(xí)算法,并通過更好的融合當(dāng)前各類組件,最終將提供更為一致性的用戶體驗。
據(jù)透露,“深盟”目前的重點開發(fā)項目被命名為“蟲洞”,其將成為所有深盟項目的統(tǒng)一入口。蟲洞將自動構(gòu)建深盟所有項目,為對所有組件提供一致的數(shù)據(jù)流支持,無論數(shù)據(jù)是以何種格式存在網(wǎng)絡(luò)共享磁盤,HDFS,還是AmazonS3,此外,它還提供統(tǒng)一腳本來編譯和運行所有組件,使得用戶即可以在方便的本地集群運行任何一個分布式組件,又可以將任務(wù)提交到任何一個包括AmazonEC2,Microsfot Azure, Google Compute Engine在內(nèi)的云計算平臺,并提供自動的容災(zāi)管理。
業(yè)內(nèi)人士評價指出,憑借百度的強(qiáng)大領(lǐng)導(dǎo)力和在該領(lǐng)域的技術(shù)積累,未來“深盟”十分有望成為分布式機(jī)器學(xué)習(xí)領(lǐng)域的國際性標(biāo)準(zhǔn)平臺,從而能夠讓更多個人和機(jī)構(gòu)享受到機(jī)器學(xué)習(xí)、人工智能和大數(shù)據(jù)帶來的技術(shù)便利。”