我們來談?wù)勀切┲悄芗揖永锏恼Z音對(duì)話設(shè)備

責(zé)任編輯:editor005

2016-06-01 13:49:45

摘自:雷鋒網(wǎng)

遠(yuǎn)場語音識(shí)別的體驗(yàn)已經(jīng)可用了,而音箱這樣的設(shè)備并沒有別的輸入輸出形式,只能用語音,沒有比較也就沒有互相傷害。遠(yuǎn)場語音識(shí)別主要靠的是硬件,靈敏度更好的麥克風(fēng)陣列,可以定向識(shí)別語音,強(qiáng)大的噪聲消除算法,可以在有環(huán)境噪音的時(shí)候分辨出人聲。

我們來談?wù)勀切┲悄芗揖永锏恼Z音對(duì)話設(shè)備

Amazon的Echo意外獲得了成功之后,現(xiàn)在大家都在跟風(fēng),就連大廠Google也在前幾天發(fā)布了自己的Google Home,其實(shí)就是一個(gè)Echo的翻版。其實(shí)這兩個(gè)產(chǎn)品的最大的特色并不是語音對(duì)話,而是更自然的交互,也就是遠(yuǎn)場的語音識(shí)別。

語音對(duì)話從Apple的Siri開始,那是很久以前的事了,那一年喬布斯還在世。現(xiàn)在在智能手機(jī)里面已經(jīng)是標(biāo)配了,我個(gè)人覺著國外Google做的好一點(diǎn),Microsoft和Apple也還可以,Amazon倒是后起之秀;國內(nèi)訊飛和百度差不多,騰訊和阿里都在自己研發(fā)類似技術(shù),還有一些小公司也在做。除了語音助手,智能電視遙控器里面也很普及,比如按住小米電視遙控器的Home鍵,然后就可以說要看什么電視劇或者電影,系統(tǒng)就會(huì)幫你找到。

但是不論是手機(jī)上的語音助手還是電視等設(shè)備的遙控器,用戶對(duì)于語音的接受度并不高,只有百分之幾的使用率。

我覺著原因第一是體驗(yàn)不夠好,尤其是在國內(nèi),對(duì)話的體驗(yàn)很差,經(jīng)常上句不接下句,做個(gè)Demo還可以,日常用經(jīng)常要罵娘。

第二是有可以替代的體驗(yàn),手機(jī)上可以觸摸,電視上可以上下左右選擇,還都有很好的屏幕的視覺反饋,語音并不是必須的。

那為啥同樣的技術(shù)放在智能家居里面大家就覺著這個(gè)體驗(yàn)好了呢,我猜有兩個(gè)原因:

一是智能家居用戶基數(shù)少,以能折騰的玩家為主,對(duì)于語音的接受度高,用戶的學(xué)習(xí)能力也強(qiáng),就算是體驗(yàn)不好用戶也能自我糾正。

二是遠(yuǎn)場語音識(shí)別的體驗(yàn)已經(jīng)可用了,而音箱這樣的設(shè)備并沒有別的輸入輸出形式,只能用語音,沒有比較也就沒有互相傷害。

遠(yuǎn)場語音識(shí)別主要靠的是硬件,靈敏度更好的麥克風(fēng)陣列,可以定向識(shí)別語音,強(qiáng)大的噪聲消除算法,可以在有環(huán)境噪音的時(shí)候分辨出人聲。這類硬件成本目前還在人民幣一百元以上,而普通的一個(gè)麥克風(fēng)也就幾塊錢成本,這也就是為什么帶遠(yuǎn)場語音識(shí)別的設(shè)備都比較貴了。即使是有了好的硬件,也要做一些體驗(yàn)的優(yōu)化,比如喚醒詞,音節(jié)越多對(duì)比越大越好,Amazon的Echo的喚醒詞是“Alexia”,Google Home的喚醒詞是“OK Google”,這樣才能保證高的準(zhǔn)確率和低的誤識(shí)別率。

插播廣告,小米生態(tài)鏈企業(yè)上海創(chuàng)米做了一個(gè)高端的攝像頭,名字叫小白。設(shè)計(jì)的時(shí)候也有語音識(shí)別功能,放了兩個(gè)麥克風(fēng),用的是訊飛的語音識(shí)別算法,已經(jīng)是國內(nèi)最好得了。實(shí)際測試的時(shí)候發(fā)現(xiàn),只能在一米以內(nèi)才能把提體驗(yàn)做好。喚醒詞最早的時(shí)候是“小白”,實(shí)測發(fā)現(xiàn)誤識(shí)別率很高,后來改成了“小白小白”,好了一些。鑒于它是一個(gè)攝像頭,最終改成了“小白看過來”,它聽到后會(huì)把頭轉(zhuǎn)過來,還是很萌的,有這款產(chǎn)品的可以試試。研發(fā)團(tuán)隊(duì)正在研發(fā)二代,估計(jì)會(huì)加入遠(yuǎn)場語音識(shí)別,價(jià)格也會(huì)高一兩百塊錢。

廣告結(jié)束,說一下我的一點(diǎn)淺見。

這類語音對(duì)話設(shè)備只是一個(gè)開始,將來也未必是音箱這種形態(tài),關(guān)鍵是技術(shù)成熟,成本用戶可以接受。這樣你可以對(duì)著空調(diào)說話,對(duì)著燈說話,它們都會(huì)聽你的,仿佛這些設(shè)備都有了生命。而用戶也很自然的接受這些設(shè)備是可以對(duì)話的,那個(gè)時(shí)候才是語音對(duì)話設(shè)備的爆發(fā)期。

用戶對(duì)于這類體驗(yàn)的向往已經(jīng)有了上千年,也體現(xiàn)在很多文學(xué)作品里面。比如《白雪公主》,里面的女王有一個(gè)魔鏡,那就是一個(gè)非常典型的語音識(shí)別設(shè)備,喚醒詞是“魔鏡、魔鏡告訴我”,可能當(dāng)時(shí)的技術(shù)還不太成熟,要這么多音節(jié)才能喚醒。魔鏡背后是強(qiáng)大的搜索能力,比如“誰是世界上最美麗的女人”,現(xiàn)在Google已經(jīng)有那么個(gè)意思了,強(qiáng)大的深度學(xué)習(xí)能力,回答這個(gè)問題是小菜一碟。除了搜索,還有其它服務(wù)的整合,比如百度還能給你送外賣。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)