摘要 : 未來NLP技術(shù)如果能在如何學(xué)習(xí)理解人類語義方面取得更多技術(shù)突破,機器翻譯取代越來越多的人工翻譯崗位,或許并非癡人說夢。
科技博客用翻譯軟件來翻譯硅谷資訊,大學(xué)生使用翻譯軟件閱讀英語論文,海外旅行者已把翻譯App作為手機必備應(yīng)用,看樣子機器翻譯就要取代譯員,如同機器在問答、導(dǎo)航、收銀這些崗位做到的一樣。那么現(xiàn)在機器翻譯究竟做到什么程度了?
機器翻譯初具“理解”能力
理想豐滿,現(xiàn)實亦可期。盡管現(xiàn)在機器翻譯距離人工翻譯還有一段距離,但隨著技術(shù)的發(fā)展和人類對語言認知的深入,機器翻譯取代人工翻譯很值得期待。
單詞翻譯是最為簡單的,就是詞典在做的事情,單詞與單詞放在一起,成了短語也可以應(yīng)付。短語和單詞構(gòu)成句子,不同場景下有著不同的意思,如果還要考慮這些句子在不同篇章中,基于上下文語境的意思,這對機器翻譯而言就有點兒難度了。
舉個通俗的例子,電影字幕的翻譯大家都很熟悉,也都知道只有翻譯者理解了導(dǎo)演要說什么,演員要講什么,理解了故事的來龍去脈,具備對應(yīng)的專業(yè)背景知識,才能帶給觀眾好字幕。
工業(yè)界的翻譯技術(shù)與它有異曲同工之處,目前尚處于能夠準確翻譯短語和單詞,同時不斷提升句子翻譯質(zhì)量的階段,且逐步向精準的篇章翻譯靠齊。
句子翻譯兩大難題:消歧和調(diào)序
機器翻譯尚處于“句子翻譯“的初級階段,即準確地理解每一個句子的基本意思。據(jù)百度NLP(自然語言處理技術(shù))技術(shù)人員介紹,盡管機器翻譯在句法理解上有所突破,但最大的難點還在于消歧和調(diào)序。
一個是順序問題。長句子,英文的語序和中文的是不一樣的,比如中文“在這張桌子上有一束花”,英文是“There are a bunch of flowers on the table”。這樣的不同是當前機器翻譯的一大難點,機器翻譯需要做到適當?shù)卣{(diào)整順序。
第二個問題是歧義問題。一個詞有多個語義,比如“看”這個詞,看病、看書、看球,是不一樣的;打球、打賞、打牌、打臉中“打”的意思也非常不同。如果直接將句子中的“看”簡單翻譯為Look自然不行,而這樣的情況又無法窮舉。
消歧和調(diào)序是機器翻譯要解決的最重要的兩個問題。如果能夠突破,機器翻譯未來就可以幫助人們做更多事情。
機器翻譯突破的殺手锏——NLP技術(shù)
業(yè)界如何解決機器翻譯所面臨的問題呢?不妨看看百度翻譯的思路。
百度翻譯的核心方案是依靠NLP技術(shù)。NLP技術(shù)能夠基于海量自然語言語料庫,通過機器學(xué)習(xí)自動理解不同單詞、短語和句式,模擬人腦思考過程去理解自然語言。
比如,為了增加更多語種之間的互譯可能,百度翻譯選擇中文或英文作為中間語言,在其他語種之間架起一座‘翻譯橋梁’。由于不同語種間的語料規(guī)模不一,并且一些小語種間的直接翻譯模型也較小,如果用戶想要將葡萄牙語翻譯成日語,通過這項中軸語技術(shù),機器將自動從葡語——中文——日語,葡語——英文——日語等模型中識別并過濾出最優(yōu)模型,進而迅速呈現(xiàn)最優(yōu)翻譯結(jié)果。
憑借NLP技術(shù)的深厚積累和領(lǐng)先優(yōu)勢,百度翻譯在很多方面超越同類競品。大規(guī)模語料去噪和過濾技術(shù)、基于樞軸方法的翻譯知識橋接技術(shù),使得資源匱乏的小語種翻譯成為可能。此外,憑借著在中文資源上的先天優(yōu)勢,百度翻譯還實現(xiàn)了普通話和粵語、文言文之間的互譯。
機器面對情緒豐富的人類,會醉嗎?
什么才是好的翻譯?清末著名學(xué)者嚴復(fù)曾提出三個字“信、達、雅”。信是指要準確;達是指說人話接地氣;雅則是指譯文要詞語得體、簡明、優(yōu)雅。最生動的例子莫過于“Bigger Than Bigger”這個口號的翻譯。中國大陸版本被譯成“比更大還更大”,被廣為吐槽,只做到“信”。香港版本的翻譯“豈止于大”就備受好評。
機器翻譯應(yīng)該會很容易翻譯出“比更大還更大”這樣的結(jié)果,而要翻譯出“豈止于大”這樣具有信達雅風(fēng)的語句自然還需要時間。
好在百度、Google等公司都在翻譯上投入大量資源,基于計算機、語言學(xué)等多種交叉學(xué)科不斷在取得突破。人工智能的技術(shù)基石正在快速發(fā)展,給機器翻譯帶來了新的契機。
未來NLP技術(shù)如果能在如何學(xué)習(xí)理解人類語義方面取得更多技術(shù)突破,機器翻譯取代越來越多的人工翻譯崗位,或許并非癡人說夢。