亞馬遜AWS首席科學家:語音識別取得突破

責任編輯:editor005

作者:薛芳

2018-01-28 17:12:01

摘自:騰訊科技

2018年1月28日上午,《麻省理工科技評論》新興科技峰會EmTech China于北京國貿(mào)大酒店正式召開,亞馬遜AWS首席科學家Animashree Anandkumar發(fā)表了演講。

2018年1月28日上午,《麻省理工科技評論》新興科技峰會EmTech China于北京國貿(mào)大酒店正式召開,亞馬遜AWS首席科學家Animashree Anandkumar發(fā)表了演講。

以下附上演講全文:

多域技術(shù)已成為前沿科技的一大領(lǐng)軍技術(shù)力量,我非常榮幸在我的博士學位和博士后學位中研究這個話題。今天我會和大家談一談機器學習,怎么研究和量化機器學習。

深度學習需要經(jīng)過多層甚至數(shù)百層的處理過程,這樣的機器學習也會在不同的GPU,進行跨機器、跨設(shè)備處理,這就需要網(wǎng)絡(luò)技術(shù)。多域模型能夠幫助我們同時處理科學、工程,各種領(lǐng)域方面的應(yīng)用。我們一直致力于尋求機器學習多域模型的解決方案,以及多領(lǐng)域的應(yīng)用如何能夠在云上進行計算。

深度學習跨越了許多的領(lǐng)域。首先我們做的是圖像理解,基礎(chǔ)任務(wù)是識別不同的物品。對于人類來說在一張圖片中識別物品很簡單,但是對于機器來說卻是極度困難的。但我們的體系有了很大的改善,也比以往的更有優(yōu)勢。

之后我們也在語音識別方面取得了突破。針對不同語言的自然語言處理也有了深度學習參與。不同的語言有不同的結(jié)構(gòu),怎么才能自動的處理這些不同的語種并理解他們?

人類利用語言在不同的背景下進行交流,比如聽說讀寫。在這些過程中,語種的表現(xiàn)方式是不一樣的。機器如何來處理不同的語言呢?這就是深度學習面臨的挑戰(zhàn)。

另一個領(lǐng)域就是關(guān)于無人駕駛。怎么提高其的性能,怎么識別障礙物,怎么能夠有很好的視覺,怎樣立即做出決策,這些都是無人駕駛技術(shù)需要解決的一些問題,也是深度學習可以發(fā)揮作用的地方。

和大家分享一下怎么運作當前的深度學習模式。深度學習有很廣泛的運用領(lǐng)域,我們有一些專門的項目,也在將它應(yīng)用到更多不同的硬件基礎(chǔ)設(shè)施中。Mxnet就是其中的一個深度學習引擎,這個項目首先由大學里的研究員開發(fā),現(xiàn)在我們正在AWS開發(fā)這個引擎。

這個引擎的優(yōu)點是顯而易見的。它建立了一個網(wǎng)絡(luò),編程過程、表述、特征描述、風格都非常靈活、方便,提高了程序員的效率。同時也提供了很好的語言支持,且前后端自動對接,提高了編程的效率。

這個網(wǎng)絡(luò)有一些固定的數(shù)據(jù),相互連接的層級會在輸入和輸出之間進行連接。雖然一些專門的項目編程過程比較容易書寫,語流更長,書寫起來象征物也更多。在計算順序方面,他們有一定的序列關(guān)系,我們制定了圖表來自動進行平行的對比。它還實現(xiàn)了記憶進行自動化,這樣在代碼運算時也提高了效率。

我們也用多GPU的訓練提升效率。一個機器上面會有多個GPU進行數(shù)據(jù)并行化,可以同時獲得大量的數(shù)據(jù)。中央數(shù)據(jù)是來自于不同CPU等級上面的網(wǎng)絡(luò),數(shù)據(jù)不斷地向下劃分,進入各個GPU。

GPU需要進行處理時發(fā)現(xiàn)了相似的內(nèi)容就會進行整合,也增加了我們的效率。GPU可以在Mxnet上面整合運算結(jié)果,這樣成本也比較低。同時我們也提升了Mxnet的性能。增加了GPU以后,整個輸入輸出效率也會翻翻。這是在AWS基建上運行的,包括B2X和B22X。

所有的服務(wù)里面, Mxent的效率最高,有91%,包括Resnet和Inception v3和Alexnet。這是有多個GPU的單一基體。在多基體上每一個機器都有16個GPU,組合到一起后,所有的數(shù)據(jù)經(jīng)過網(wǎng)絡(luò)就會影響效率。但我們的效率并沒有降低很多,因為Mxnet它的打造非常緊密,可以提升效率。所以我們可以進行這種分布式的多機器的訓練。

這些現(xiàn)在也可以應(yīng)用于一些情景的運行以及我們多GPU和CPU的框架之中。我們也希望可以提供這樣的技術(shù)給我們的消費者,讓他們知道我們分布式的訓練有非常好的技術(shù)包裹,可以幫助我們進行網(wǎng)絡(luò)壓縮以及網(wǎng)絡(luò)解壓,提供好的技術(shù)服務(wù)。

所有的這些框架,都可以應(yīng)用于我們的機器學習平臺CHMaker。這是多機器學習的一個平臺,所有的分布式深度學習框架都可以在這個平臺上進行運行,比如說TensorFlow、Mxnet。我們的平臺除MxNet之外可以支持所有的框架,我們希望可以給我們的用戶更多靈活的選擇。

除此之外,DeepLens也是我們最近發(fā)布的第一款深度學習的攝像頭,可以提供很多的服務(wù),比如語言、語句、計算機視覺等。使用者不需要培訓自己的學習模型,完全可以使用我們的服務(wù)。

鏈接已復制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號