阿里巴巴人工智能首席科學(xué)家聶再清:語音助手是下一代人機(jī)交互入口

責(zé)任編輯:zsheng

2018-12-17 18:50:55

摘自:鈦媒體

在12月15日的2018 T-EDGE 全球創(chuàng)新大會上,阿里巴巴人工智能實(shí)驗(yàn)室語音助手首席科學(xué)家聶再清發(fā)表了主題演講。圍繞語音交互的下一代發(fā)展,聶再清從阿里巴巴對語音、語義、人機(jī)交互的理解與落地場景進(jìn)行了闡述。

在12月15日的2018 T-EDGE 全球創(chuàng)新大會上,阿里巴巴人工智能實(shí)驗(yàn)室語音助手首席科學(xué)家聶再清發(fā)表了主題演講。圍繞語音交互的下一代發(fā)展,聶再清從阿里巴巴對語音、語義、人機(jī)交互的理解與落地場景進(jìn)行了闡述。

在聶再清看來,AI 新技術(shù)正在打造下一代人機(jī)交互方式,這也是人把物理世界數(shù)字化的人機(jī)交互過程,而語音助手則成為當(dāng)下AI 落地的一個熱門場景。

這也解釋了當(dāng)下智能音箱的風(fēng)靡。不論是訂外賣、拉窗簾、聽音樂,語音交互技術(shù)已經(jīng)進(jìn)入消費(fèi)的日常生活,據(jù)了解,由阿里巴巴推出的智能音箱“天貓精靈”,自面世不到一年(從2017年8月8日正式開售到2018年7月5日),銷售量就突破了500萬臺,今年雙十一期間更是成為了消費(fèi)電子行業(yè)(天貓平臺)單品銷量冠軍。

談及人工智能領(lǐng)域自然語言理解技術(shù)的挑戰(zhàn),聶再清表示,挑戰(zhàn)主要來自自然語言理解的多樣性和歧義性。

因此,阿里巴巴正在根據(jù)公開大數(shù)據(jù)自動生成語料來解決冷啟動語料缺乏問題,利用融合知識圖譜和用戶畫像的深度學(xué)習(xí)算法打造強(qiáng)大的語義理解能力,以及通過深度強(qiáng)化學(xué)習(xí)方法在與用戶的聊天中自動學(xué)習(xí)最佳人機(jī)對話策略。

“語音助手已經(jīng)進(jìn)入大家的日常生活,需要各個開發(fā)者參與其中,我們希望搭建簡單易用的AI平臺,把我們積累的人工智能技術(shù)和創(chuàng)新賦能給開發(fā)者。”聶再清表示。

以下為聶再清在2018 T-EDGE 全球創(chuàng)新大會上的演講實(shí)錄,經(jīng)鈦媒體編輯后發(fā)布:

大家好,我是阿里巴巴人工智能實(shí)驗(yàn)室的聶再清,今天給大家分享的題目是“語音助手,下一代人機(jī)交互入口”,阿里巴巴人工智能實(shí)驗(yàn)室的一個重要使命就是用AI的新技術(shù)打造下一代的人機(jī)交互方式。

什么是我們認(rèn)為的人機(jī)交互方式?就是人類把物理世界數(shù)字化時跟機(jī)器的交互過程,在座的可能有一些人經(jīng)歷了剛開始只有用鍵盤和計(jì)算機(jī)交互的時代,用dos系統(tǒng)一行一行的輸入,人跟機(jī)器交互需要學(xué)習(xí)培訓(xùn),一般人不會用計(jì)算機(jī),慢慢我們有了圖形界面,我們用鼠標(biāo)點(diǎn)一下就可以,更多人不經(jīng)過培訓(xùn)就可以使用了。

現(xiàn)在大家正在用手機(jī)進(jìn)行物理世界的數(shù)字化。所有人,包括老年人,包括幾歲的小孩都可以用手機(jī)觸達(dá)數(shù)字世界,并不斷數(shù)字化物理世界的很多信息。你通過微信或釘釘確認(rèn)一個好友邀請,就是把物理世界的好友關(guān)系數(shù)字化,你看到帳號上的信息,就是看到你銀行的數(shù)字世界的信息。這種通過手機(jī)的觸屏交互方式越來越自然,學(xué)習(xí)成本非常底,幾乎人人都參與進(jìn)來了,也極大地豐富了我們云端的數(shù)字世界的內(nèi)容。

但這也有一個壞處,很多人都在長時間地低頭玩手機(jī),甚至有一個新詞“低頭族”來描述這一現(xiàn)象,描繪的就是大量的人把大量時間放在通過手機(jī)和數(shù)字世界的交互上,這種生活方式不是非常健康的,我們希望一個更健康更自然的交互方式,這個方式就是我們認(rèn)為的語音助手。

剛開始,智能音箱和語音助手在美國很受歡迎,而現(xiàn)在我們知道中國用戶更喜歡這樣的方式。用數(shù)據(jù)說一下,去年雙十一,我們只用九個小時就賣了一百萬臺智能音箱,從一年前天貓精靈面世開始不到一年就賣了五百萬臺。今年,我們已經(jīng)成為電子消費(fèi)行業(yè)在天貓平臺上雙十一的銷量冠軍,智能音箱在雙十一期間也超過了手機(jī)這個品類的銷量。天貓精靈已經(jīng)成為最受歡迎的中文語音助手(智能音箱),在全球智能音箱市場也是第三(在Amazon和Google之后)。

語音助手已經(jīng)在進(jìn)入每個人的日常生活,有很多場景都可以使用語音助手,比如早上起床后開燈開窗簾;收聽天氣預(yù)報(bào)以及新聞;中午可以訂外賣,到了晚上睡覺前可以聽著最喜歡的輕音樂入睡……在一天24小時里,很多的場景都可以幫助到。

如果把語音助手變成大家的第一個交互入口的話,我們需要各行各業(yè)的開發(fā)者都加入進(jìn)來,把他們的內(nèi)容、服務(wù)、基礎(chǔ)設(shè)施都連上我們的助手。甚至我們在北京的一家養(yǎng)老院都安裝了天貓精靈,幫助行動不便的老人用語音控制家電。老人們都非常喜歡,因?yàn)槟軒椭麄冏龊芏嗍虑椤?/p>

為了讓每個開發(fā)者都能參與打造我們的語音助手,我們希望搭建簡單易用的AI平臺,把我們積累的人工智能技術(shù)和創(chuàng)新賦能給開發(fā)者。我們推出了AliGenie這個語音助手平臺。這個平臺涵蓋了一個又全又準(zhǔn)的知識圖譜,不僅僅是百科的知識,還有優(yōu)酷的知識,有蝦米音頻的知識。

我們把通用的百科知識和這些Vertical的知識結(jié)合起來,把物理世界的人和物一一對應(yīng)到我們的知識圖譜上去?;谶@個圖譜,AliGenie提供四種基本AI能力:語音識別能力、自然語言處理能力、語音合成的能力、還有用戶畫像和個性化推薦的能力。

任何一個開發(fā)者就可以使用到這四種基本的能力,這四個基本能力之上,我們還提供四種類型的對話:

第一種,業(yè)務(wù)完成,比如說打開燈和窗簾這種任務(wù),天貓精靈可以幫你通過對話形式解決;

第二種,知識問答,就是你有一個問題,天貓精靈能夠把你的每個問題都回答好。

第三種,智能聊天,是我自己提出來的,這個聊天和我們的閑聊有很大的區(qū)別,待會兒我還會重點(diǎn)介紹;

最后一種,閑聊,是能夠接住用戶的任何一句輸入的聊天服務(wù)。

由于時間關(guān)系,今天我主要介紹一下自然語言理解和智能聊天。

什么是語音助手里的自然語言理解?舉例來說,你問天貓精靈明天天氣怎么樣,它需要了解用戶意圖是要了解天氣預(yù)報(bào),這個工作就是意圖識別(intent detection);天貓精靈還需要從用戶請求里獲得兩個參數(shù):一個是時間一個是地點(diǎn),我們要把“明天”、“北京”這個時間和地點(diǎn)作為參數(shù)輸入給API,這個工作就是槽填充(slot filling);知道了意圖和槽值(以及上下文),讓天貓精靈決定下一步要做什么,是對話管理(dialog management);所以自然語言理解在智能助手里面做三件事:意圖識別、槽填充、對話管理。

講講這三件事的挑戰(zhàn),以及我們怎么解決的。

大家都知道,自然語言理解是人工智能里面最難的范疇,它的挑戰(zhàn)主要來自于哪里?來自于自然語言的多樣性和歧義性。

“明天天氣怎么樣”有幾十萬種說法,如果我們沒有足夠的訓(xùn)練數(shù)據(jù)的話,你的智能助手沒有理解對,用戶會認(rèn)為是智障,大家對它的期待很高,所以我們怎么能讓不是機(jī)器學(xué)習(xí)專家的開發(fā)者的人也能夠開發(fā)這類應(yīng)用,這是我們平臺要做的事情。

現(xiàn)在我們主要的解決方案是按照公開大數(shù)據(jù)自動生成的語料讓開發(fā)人員標(biāo)注,用一個基于規(guī)則的方法自動解決冷啟動是語料缺乏的問題,利用融合知識圖譜和用戶畫像的深度學(xué)習(xí)算法打造強(qiáng)大的語義理解能力,以及通過深度強(qiáng)化學(xué)習(xí)方法在與用戶的聊天中自動學(xué)習(xí)最佳人機(jī)對話策略。

下面我介紹一下我們在研發(fā)的智能聊天能力。

作為對比,先看看什么是閑聊。閑聊是一種基于人類曾經(jīng)發(fā)生過的對話庫來回答用戶請求服務(wù)。在閑聊技術(shù)體系里,機(jī)器并不需要真正理解用戶的請求。閑聊有幾個特點(diǎn),一般都是單輪或者很少的輪數(shù),它的好處是任何話題都能接住。閑聊的用處在于接住用戶的每一句請求,不讓用戶因?yàn)樘熵埦`聽不懂他/她的某一句話就不和天貓精靈玩了。

但我不希望跟用戶進(jìn)行太長時間的閑聊,因?yàn)槿绻脩舾熵埦`聊一百輪閑聊,用戶還是記不住什么東西,這是在浪費(fèi)用戶的時間。這是不符合我們的價值觀,我們希望人能夠通過我們聊天能夠?qū)W到知識,或者變得更加快樂。

再來看看智能聊天。

智能聊天需要要理解用戶請求,同時用強(qiáng)大的知識圖譜制作聊天的知識點(diǎn),通過跟用戶對話,把我們知識圖譜里面的知識灌輸給用戶。我們希望跟用戶聊的越多越好,他會學(xué)到很多知識,我們希望用戶聊完以后學(xué)到知識并慢慢變成我們的朋友。

智能聊天是能用深度強(qiáng)化學(xué)習(xí)來學(xué)習(xí)對話策略的,因?yàn)榫退闾熵埦`聊錯一點(diǎn),沒有多大的關(guān)系,用戶只是會對這個回復(fù)不太高興(不像任務(wù)完成時需要100%準(zhǔn)確完成主人的任務(wù))。通過深度強(qiáng)化學(xué)習(xí),下次天貓精靈就可能更好地知道到底應(yīng)該怎么和這類用戶聊天。我認(rèn)為深度強(qiáng)化學(xué)習(xí)能夠應(yīng)用在智能聊天的對話策略學(xué)習(xí)這個領(lǐng)域。

總結(jié)一下,語音助手已經(jīng)進(jìn)入大家的日常生活,需要各個開發(fā)者參與其中,我們希望搭建簡單易用的AI平臺,把我們積累的人工智能技術(shù)和創(chuàng)新賦能給開發(fā)者。以上就是我全部的演講內(nèi)容,謝謝大家。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號