Facebook的使命是讓世界變得更加開放,讓每個人都能以最高的準確性和最快的速度使用自己喜歡的語言來發(fā)帖子和視頻進行互動,語言翻譯對此十分重要。
雷鋒網(wǎng)了解到,今天,F(xiàn)acebook的人工智能研究團隊發(fā)表了他們的研究成果Fairseq,他們使用了一種新型的卷積神經(jīng)網(wǎng)絡來做語言翻譯,比循環(huán)神經(jīng)網(wǎng)絡的速度快了9倍,而且準確性也是現(xiàn)有模型中最高的。此外,F(xiàn)AIR序列建模工具包的源代碼和訓練好的系統(tǒng)都已經(jīng)在開源平臺GitHub上公布,其他的研究者可以在此基礎(chǔ)上建立自己的關(guān)于翻譯、文本總結(jié)和其他任務的模型。
為什么選擇卷積神經(jīng)網(wǎng)絡?
卷積神經(jīng)網(wǎng)絡在數(shù)十年前由Yann Lecun 提出,已經(jīng)在諸如圖像處理之類的領(lǐng)域取得了成功。 循環(huán)神經(jīng)網(wǎng)絡卻是文本領(lǐng)域的現(xiàn)有技術(shù),并且由于其極高的效率而成為語言翻譯的首選。
盡管循環(huán)神經(jīng)網(wǎng)絡以前在語言翻譯上比卷積神經(jīng)網(wǎng)絡表現(xiàn)的更好。但是其設(shè)計具有固有的局限性,這可以通過它們怎么處理信息來理解。計算機一句一句地來翻譯一個文本然后去預測另外一種語言具有相同意思的單詞序列。循環(huán)神經(jīng)網(wǎng)絡以嚴格的從左到右或者從右到左的來進行運算,一次處理一個單詞。這和現(xiàn)在高度并行的GPU硬件有點不符合。由于單詞只能一個接著一個進行處理,計算不能完全并行。而卷積神經(jīng)網(wǎng)絡可以同時計算所有的元素,充分利用了GPU的并行性。CNN的另一個優(yōu)點是它對信息進行分層處理,這讓它可以更容易獲得數(shù)據(jù)之間的復雜關(guān)系。
雷鋒網(wǎng)獲悉,在先前的研究中,卷積神經(jīng)網(wǎng)絡在翻譯任務上的表現(xiàn)要差于循環(huán)神經(jīng)網(wǎng)絡。然而,由于卷積神經(jīng)網(wǎng)絡架構(gòu)上的潛力,F(xiàn)AIR開始了研究,發(fā)現(xiàn)所設(shè)計的翻譯模型顯示了CNN在翻譯方面的優(yōu)異性能。CNN優(yōu)異的計算性能將有可能會擴展可翻譯的語言,將包括全球的6500種語言。
最快最好的結(jié)果
Facebook團隊的結(jié)果表明,在廣泛應用的標準測試數(shù)據(jù)集(WMT會議提供)上,其比RNN表現(xiàn)的更好。尤其是卷積神經(jīng)網(wǎng)絡比先前在WMT發(fā)表的結(jié)果都要好。在英語-法語任務上提高了1.5 BLEU,在英語-德語任務上提高了0.5BLEU,在WMT2016的英語-羅馬尼亞語任務上,提高了1.8BLEU。
對神經(jīng)機器學習實際應用考慮的一個方面在于翻譯一個句子所需要的時間。 FAIR的卷積神經(jīng)網(wǎng)絡模型計算的相當快速,比循環(huán)神經(jīng)網(wǎng)絡快樂整整9倍。許多研究都通過量化權(quán)重或者其他的方法的方法來加速神經(jīng)網(wǎng)絡,這也同樣可以用于卷積神經(jīng)網(wǎng)絡。
用多跳注意和門控來獲得更好的翻譯效果
團隊的架構(gòu)一個重要的部分就是多跳注意。注意力的機制類似于一個人在翻譯句子的時候會把句子分開翻譯,而不是僅僅看一次句子然后就直接寫下完整的翻譯。所設(shè)計的網(wǎng)絡會重復地掃描句子來決定它將要翻譯的下一個單詞。多跳注意是這種機制的加強版,它讓網(wǎng)絡更多次地掃描句子來產(chǎn)生更加好的結(jié)果。每一次掃描之間都相互影響。舉一個例子,第一次掃描會注意到一個動詞,然后第二次掃描會注意到相關(guān)聯(lián)的助動詞。
在下面這幅圖中,F(xiàn)acebook團隊展示了一個系統(tǒng)是怎么閱讀一個法語短語然后再翻譯成英語的。首先,用卷積神經(jīng)網(wǎng)絡來生成每一個法語單詞的對應向量,在此同時進行計算。然后解碼的CNN再生成對應的英語單詞。在每一步,都掃描一下法語單詞來看一下哪些詞語與下一個要翻譯的英文單詞關(guān)系最為密切。在解碼器中有兩層,下面的動畫說明了每一層的注意力機制是怎么完成的。綠線的強度表現(xiàn)了網(wǎng)絡對每一個法語單詞的注意力。當網(wǎng)絡訓練好之后,也就可以進行翻譯了,英文單詞的計算也可以同時進行。
系統(tǒng)的另一個方面是門控,其控制神經(jīng)網(wǎng)絡里面的信息流。在每個神經(jīng)網(wǎng)絡中,信息都流過所謂的隱藏單元。的門控機制精確的控制了傳向下一個單元的信息,一個好的翻譯才因此產(chǎn)生。例如,當預測下一個單詞的時候,網(wǎng)絡會把它前面的翻譯部分考慮進去。門控允許它在翻譯的一個特定方向進行放大—這一切都取決于網(wǎng)絡認為其在上下文中認為合不合適。
以后的發(fā)展
這一種方法是機器翻譯的一種替代框架,也給其它的文本處理任務提供了新的思路。例如,多跳機制在對話系統(tǒng)中允許網(wǎng)絡注意對話的不同部分。例如對兩個沒有聯(lián)系的事實,可以把它們聯(lián)系在一起來更好地回答復雜的問題。
via code.facebook,雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))編譯
AI科技評論招聘季全新啟動!
很多讀者在思考,“我和AI科技評論的距離在哪里?”答案就是:一封求職信。
AI科技評論自創(chuàng)立以來,圍繞學界和業(yè)界鰲頭,一直為讀者提供專業(yè)的AI學界、業(yè)界、開發(fā)者內(nèi)容報道。我們與學術(shù)界一流專家保持密切聯(lián)系,獲得第一手學術(shù)進展;我們深入巨頭公司AI實驗室,洞悉最新產(chǎn)業(yè)變化;我們覆蓋A類國際學術(shù)會議,發(fā)現(xiàn)和推動學術(shù)界和產(chǎn)業(yè)界的不斷融合。
而你只要加入我們,就可以一起來記錄這個風起云涌的人工智能時代!