從"聽話"到"懂話":智能語音交互的進化

責任編輯:editor007

作者:CN314

2015-01-15 17:19:32

摘自:新浪科技

以上這些因素,造成之前的手機語音功能識別率太低,如同雞肋,所以也沒有在手機中起到決定性的作用。據(jù)咨詢公司統(tǒng)計和預測,近兩年國內智能終端語音交互市場使用群體或將達到驚人的規(guī)模:

語音交互的進化歷程

回顧人類發(fā)展歷史,不難看出,隨著人類不斷進化,從最初通過手掌、肢體使用簡單工具、傳遞簡單信息,發(fā)展到控制發(fā)聲并通過耳朵接收,形成了一個以語音為載體的快速信息傳遞通道和收發(fā)閉環(huán),成為人類間最自然、最重要的信息交互手段。聲波作為一種音頻信號,和視頻信號、無線電信號一樣是,非接觸方式傳播,也是人類唯一可以不借助工具就可自由掌控的一種天然“無線”資源。

而且聲波對接收指向性的要求更寬松,這個非常寶貴的特性會在很多場景下帶來極大便利。特別是對于一些在視覺、觸覺等方面存在障礙(如老年人、弱視、殘障人士)或不適合(如兒童需要保護視力)的龐大特定人群,語音更是最佳的交互選擇。

而作為這種功能在移動端延伸,手機相關的語音交互功能最早要追溯到十幾年前的功能機時代。它最初是以語音撥號的形式來實現(xiàn)這種交互,當時以摩托羅拉、諾基亞為首的一批國外手機廠商,通過預先錄制預存用戶的語音樣本,然后使用時由用戶進行語音口述,比對預留樣本,從而實現(xiàn)語音撥號的功能。

這項功能后續(xù)進行了進一步的發(fā)展,例如摩托羅拉在其A系列上從語音撥號進化到語音控制層面,就是通過語音能控制手機發(fā)短信、打開應用程序諸如音樂等。但是,這一階段的語音交互技術有個致命的問題,就是準確性不高。因為它采用的是通過預存樣本比對的技術來實現(xiàn),這樣的技術受限度很大,主要有以下三個:

A、受外界背景噪音干擾:因為是采用的樣本音頻分析對比,所以對來源音頻的質量要求較高,如果來源音頻背景噪音太嚴重,會造成與預留樣本不符而比對失敗。想想,你在一個安靜的環(huán)境里錄完音,然后在大街上去使用,這種成功率會高嗎?

B、使用者發(fā)音前后不一干擾:

同樣的道理,你預留的樣本音頻是健康時的,而使用時因為風寒感冒了,很可能會造成比對失敗,這樣也會影響成功率。

C、其它使用者無法使用:你的樣本是你自己的,如果換成你的愛人,或者小孩,按照這種樣本對比,就根本無法使用了。

以上這些因素,造成之前的手機語音功能識別率太低,如同雞肋,所以也沒有在手機中起到決定性的作用。

語音交互的新時代來臨

進入到智能操作系統(tǒng)時代,手機、平板、可穿戴、智能家居、智能汽車等不斷出現(xiàn),各種業(yè)務、軟件、應用也迅速普及,而且越來越多應用也開始引入語音功能,有助于培養(yǎng)用戶使用習慣,語音交互迎來了春天般的新時代機遇。

據(jù)咨詢公司統(tǒng)計和預測,近兩年國內智能終端語音交互市場使用群體或將達到驚人的規(guī)模:

分析當前語音交互的熱潮,主要具備了以下幾個主要原因:

A、人工智能算法突破

前述我們講的過去的語音識別主要原理是模式匹配法,即在訓練階段,用戶將詞匯表中的詞依次說一遍,并且將其特征矢量作為模板存入模板庫。在識別階段,將輸入語音的特征矢量依次與模板庫中的每個模板進行相似度比較,將相似度最高者作為識別結果輸出。

而現(xiàn)在的技術突破方向是“機器學習”,通過語音識別聲學模型訓練,使用帶預訓練的多層神經網(wǎng)絡,語音識別錯誤率可降低30%,是近20年來語音識別技術方面最快的進步。

B、大數(shù)據(jù)的靈活應用

隨著及手機、平板、可穿戴等各種移動智能終端的普及應用,已經可以從多個渠道獲取大量文本或語音方面的語料,這為語音識別中的語言模型和聲學模型的訓練提供了豐富的資源,使得構建通用大規(guī)模語言模型和聲學模型成為可能。

而在語音識別中,訓練數(shù)據(jù)的匹配和豐富性是推動系統(tǒng)性能提升的最重要因素之一,但是語料的標注和分析需要長期的積累和沉淀,隨著大數(shù)據(jù)時代的來臨,大規(guī)模語料資源的積累成為現(xiàn)實并將提升到戰(zhàn)略高度。

C、高速移動數(shù)據(jù)網(wǎng)絡打通大動脈

2/3G時代,流量的限制使得語音交互技術無限制使用的條件不足,海量語音資料庫累積較慢,限制了語音辨識與語義理解的提升;而如果局限于本地模式下,又缺乏大數(shù)據(jù)處理的支撐導致語音辨識率低,影響用戶體驗,使用頻次下降,形成負反饋,就如同前十幾年那種雞肋的局面。

4G時代,手機網(wǎng)速大大提高,語音應用的頻次和范圍不斷增加,海量語音資料庫迅速增長;語音辨識準確率以及語音分析能力大大提升,而語音辨識精確度與語義理解能力的提升,又將進一步推動語音交互發(fā)展提升體驗,形成正向反饋,帶動語音交互應用更加豐富。

簡單總結,就是人工算法實現(xiàn)功能上的智能化,大數(shù)據(jù)形成大量的聲學模型,保障誤別的成功率,而4G高速網(wǎng)絡能講樣本快速上傳并下載相應的識別結果,提升用戶體驗。從這個層面上講,現(xiàn)在語音識別已經不僅僅是“聽”這個層面上,更多的是朝聽完之后“懂”的層面上發(fā)展,成為用戶真正的助力幫手。

語音交互的未來

隨著人類對智能設備的依賴和人機之間的交互日益頻繁,原有的操控方式變得越來越復雜、效率低下,迫切需要誕生一種新的更簡便的操作方式;而語音一旦成為主流的交互手段,可以做到各種設備指令統(tǒng)一、簡潔,大大降低人類對智能設備操作的要求、節(jié)省人機互動的時間。

哪些人群會在語音交互的這股浪潮中得到益處?語音交互的智能化又能給行業(yè)帶來什么樣的新動向?

首先,隨著智能設備和應用的影響逐漸擴大,用戶群逐步向老齡人群、低齡人群、身體殘障人群滲透擴散的趨勢非常明顯,而對這些新進入人群而言,原有的觸控交互方式或許并不太適合,用戶習慣也未形成,例如老年人視力下降、手指也不夠靈活;低齡兒童還不能掌握手寫等能力也不適合長時間看電子屏幕;弱視/盲人更希望接受語音信息和發(fā)出語音指令,等等,因此語音交互也更適合拓展智能設備新的用戶人群。

其次,語音交互可能會成為繼搜索引擎、瀏覽器、智能手機OS之后,第四代的入口。語音識別將使人機交互能夠以人類最熟悉的方式進行,其優(yōu)勢以及價值一旦發(fā)揮出來,天然的交互入口起到導流作用,將對即時通訊、搜索、購物、LBS等垂直應用服務市場產生巨大的影響,而且語音交互將凌駕于搜索引擎、瀏覽器等其他應用入口之上,形成一個以語音交互技術為核心的全新應用生態(tài)鏈,前景極為看好,這也正是產業(yè)巨頭紛紛在這一領域投入巨大資源的根本原因。

語音交互產業(yè)鏈的形成

當前,從整個產業(yè)鏈條來看,在語音交互技術領域,涌現(xiàn)出一大批優(yōu)秀的中國企業(yè),經過多年的積累,語音技術已不再是國際巨頭一家獨大的局面。如在核心技術研發(fā)環(huán)節(jié),有小i機器人等智能機器人廠商,以及清華、中科院等人工智能技術研究院校和科研院所;人機交互技術及服務提供商,如科大訊飛、捷通華聲、車音網(wǎng)等語音技術提供商及微信、QQ等平臺服務商。在數(shù)據(jù)和內容提供商環(huán)節(jié)更是百花齊放,應用領域包括影視(百事通、優(yōu)酷、土豆等)、音樂、餐飲(大眾點評、訂餐小秘書)、財經(新浪財經、東方財富網(wǎng)等)、天氣(問天網(wǎng))、航班(攜程、去哪兒)、旅游(攜程、驢媽媽)、導航(高德、凱立德等)、政府、行業(yè)知識庫等細分行業(yè);智能終端設備提供商中包括以中興、聯(lián)想、華為等為代表;智能電視領域有長虹、創(chuàng)維等智能電視提供商、機頂盒提供商,以及東方有線、百事通、中國電信IPTV以及機頂盒生產廠商、服務運營商等。

鏈接已復制,快去分享吧

企業(yè)網(wǎng)版權所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號