Facebook基于十億單詞量構(gòu)建了一個高效的神經(jīng)網(wǎng)絡(luò)模型

責(zé)任編輯:editor004

作者:Alex Giamas

2016-12-22 12:18:52

摘自: InfoQ

使用神經(jīng)網(wǎng)絡(luò)進(jìn)行序列預(yù)測是眾所周知的計算機(jī)科學(xué)問題,在語音識別、機(jī)器翻譯、語言建模和其他領(lǐng)域中都有著廣泛的應(yīng)用。這種預(yù)測使用的模型對計算能力要求很高,這限制了它們的實際應(yīng)用。

使用神經(jīng)網(wǎng)絡(luò)進(jìn)行序列預(yù)測是眾所周知的計算機(jī)科學(xué)問題,在語音識別、機(jī)器翻譯、語言建模和其他領(lǐng)域中都有著廣泛的應(yīng)用。這種預(yù)測使用的模型對計算能力要求很高,這限制了它們的實際應(yīng)用。

Facebook AI Research的科學(xué)家設(shè)計了自適應(yīng)的softmax算法,這是一種為GPU定制的近似算法,可在龐大的單詞量基礎(chǔ)上高效地訓(xùn)練神經(jīng)網(wǎng)絡(luò)。如公開發(fā)表的論文中所描述的,自適應(yīng)softmax利用單詞在大語料庫中的不均衡分布,形成可以最小化計算復(fù)雜度的群集。完全softmax與詞匯庫大小線性相關(guān),而自適應(yīng)softmax是次線性相關(guān)的,并且針對GPU進(jìn)行了優(yōu)化。

在開發(fā)softmax的同時,F(xiàn)acebook研究人員發(fā)布了開源庫torch-rnnlib,幫助研究人員設(shè)計和測試GPU中的遞歸模型。有了torch.cudnn,可以使用NVIDIA CUDA Deep Neural Network庫輕松訪問基線。RNN、LSTM、GRU和其他遞歸神經(jīng)網(wǎng)絡(luò)都有具體的實現(xiàn),研究人員可以很容易地把它們用于遞歸神經(jīng)網(wǎng)絡(luò)的設(shè)計。

Facebook研究人員在單個GPU上對該算法進(jìn)行測試,速度達(dá)到了每秒12500個單詞,同時保持精確度接近完全softmax。從基準(zhǔn)困惑度來看,谷歌公司的Jozefowicz等人在2016年使用32個GPU訓(xùn)練了3個星期得到30的困惑度(越低越好),同時使用18個GPU訓(xùn)練了幾天得到44的困惑度。Google使用Tensorflow實現(xiàn)的LSTM模型發(fā)布在Github上,它的主要作者在Reddit的相關(guān)話題中提出了一個有趣的方法來解釋困惑度。相反地,自適應(yīng)softmax可以在大約14小時內(nèi)達(dá)到50的困惑度,在一兩天內(nèi)達(dá)到43.9的困惑度以及在六天內(nèi)達(dá)到39.8的困惑度。如果沒有CuDNN庫,性能下降約30%。所有工具和技術(shù)都針對EuroParl和十億字語料庫進(jìn)行過測試,這些語料庫是當(dāng)前可獲得的最大的幾個語料庫。

查看英文原文:Facebook Builds an Efficient Neural Network Model over a Billion Words

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號