拿什么拯救智能家居的未來?

責任編輯:editor005

2017-02-14 13:58:57

摘自:搜狐

人工智能與智能家居的結(jié)合,帶來的巨大變革主要有兩個:一個是新的交互方式,一個是新的感知形式。因為之前國內(nèi)外在對話理解方面的算法還不夠精準,所以目前很多智能家居還停留在初級智能、甚至初級智能未完成的階段。

人機圍棋大戰(zhàn)雖早已落下帷幕,但人工智能依然是人們的熱議話題。而最近熱播的HBO出品的科幻新劇《西部世界》又將人工智能話題帶到了一個新的高度。劇中人工智能技術(shù)已經(jīng)發(fā)展到了前所未有的成熟地步,人類不僅造出了外觀跟人類一模一樣的機器人,而且人類可以與機器人采用自然語言的方式進行對話、溝通情感等等,全程人機的對話非常自然、毫無違和感。

雖然現(xiàn)在的人工智能還沒有劇中這么成熟,但“高逼格”的人工智能,其實早就在某些感知能力方面超越了人類,比如語音識別和圖像識別等。

它還在某些行業(yè)領(lǐng)域產(chǎn)生了顛覆性的影響,比如Google采用人工智能算法RankBrain提高了搜索的準確率;

滴滴出行采用人工智能算法,動態(tài)規(guī)劃車輛,進行調(diào)度;

科大訊飛采用人工智能算法對發(fā)音標準進行檢測,機器對學生的英文和中文發(fā)音效果檢測準確率甚至超越了專業(yè)的老師;

IBM的Watson已經(jīng)在美國安德森癌癥中心(M.D. Anderson Cancer Center)上崗,被譽為“未來最好的癌癥專家”和“醫(yī)神”……

但看似無所不能的人工智能技術(shù),也曾在若干行業(yè)中屢屢碰壁。

比如Siri等語音助手的激活率和使用率并不高,GoogleGlass等智能穿戴設備并未掀起新一波的移動設備浪潮等。

造成這一局面的原因是什么呢?

有句話說得好:“場景不對,努力白費”。

在天生為觸控而生的手機平臺上,人工智能技術(shù)是被限制的,語音交互并不符合用戶的心智模型;在可穿戴設備上,沒有強大的計算平臺,而且可穿戴設備大多依附于手機移動終端,導致人工智能技術(shù)的效果大打折扣。

那么什么使用場景才是比較適合人工智能的呢?或許Echo給我們指出了一條新的方向,那就是智能家居。

傳統(tǒng)的智能家居僅是實現(xiàn)了聯(lián)網(wǎng)化,并沒有達到“智能”,所采取的用手機app控制家居的方式只是將多個遙控器或者開關(guān)變成了多個app。

想象一下你家里的臥室和衛(wèi)生間裝了飛利浦的燈泡,裝一個app;裝某智能插座,又要裝一個app。你半夜起來上廁所,想要開燈,還要摸手機,探索著打開app,判斷哪個才是控制衛(wèi)生間的,半睡半醒中一不小心還會打錯開關(guān),影響家人的睡眠,這真的是智能家居"急人所急想人所想”,還是讓用戶更“急”呢?

在眾多的app中找到家居,打開,操控,貌似還不如以往的操作模式來的方便,也就造成了智能家居目前“食之無味,棄之可惜”的雞肋局面。

怎樣才能打破這尷尬局面呢?

將人工智能技術(shù)與智能家居結(jié)合起來或許會是一條不錯的路徑。

人工智能與智能家居的結(jié)合,帶來的巨大變革主要有兩個:一個是新的交互方式,一個是新的感知形式。

新的交互方式——人機對話,是人工智能給智能家居行業(yè)注入的最大活力。

人們可以通過自然語言的方式完成與智能家居進行對話、表達需求、實現(xiàn)功能的過程。這一交互模式大大的提升了用戶的操作效率,使用戶擺脫了物理層面的約束,可以更加自由地操控家居。而智能家居無屏或者小屏的形態(tài),也有助于用戶養(yǎng)成新的交互習慣。同時,在家庭這種封閉、干擾較少的場景下,語音、圖像等信號被硬件捕捉后,可以達到最好的識別效果。而且在這種私密性較高的場景下,用戶不容易受外界干擾,會用自然語言真實地表達自己的需求。

人工智能給智能家居帶來的另外一個變革是新的感知形式。

人工智能與大數(shù)據(jù)的連接是最為緊密的,只有海量的數(shù)據(jù)才能使機器學習的算法變得更為精準,從而形成算法到數(shù)據(jù)的正向循環(huán)。

現(xiàn)在每個家居產(chǎn)品都有若干的sensor(攝像頭、麥克風、距離傳感器、溫度傳感器等等),它們能看到世間萬物、能聽到裊裊余音、能感知到環(huán)境的變化……捕捉到這些數(shù)據(jù)后,它們不斷地上傳數(shù)據(jù)為人工智能算法的精進提供“燃料”。這些感知模塊就如同人類的鼻子、眼睛、耳朵、皮膚,能多維度的了解用戶當前所處的場景,因此可以為用戶提供更加場景化和個性化的服務。

有了新的交互模式和感知形式,智能家居就需要一個類似人類大腦的中樞來分析和決策。

這個中樞就是對話理解系統(tǒng),即:讓機器(包括智能家居)能和人類正常的溝通,理解人類表達的意思以及所處的環(huán)境,綜合判斷并完成用戶的需求。

對話理解系統(tǒng)促進智能家居完成的需求包含兩種:第一種是顯性需求,第二種是隱形需求。

何為顯性需求呢?就是用戶發(fā)出什么樣的指令,家居就完成什么樣的功能,屬于被動式的服務。比如:在使用智能電視時,指示“播放中央一臺”、“看劉德華的電影”;在使用智能音箱時,指示“播放郭德綱的相聲”、“聽周杰倫的音樂”等。這種需求采用“語音識別+垂直領(lǐng)域的語義理解+第三方服務”的形式即可滿足,這是一種初級智能的表現(xiàn)。

何為隱性需求呢?即:由智能家居對用戶的對話歷史進行分析,了解用戶的各種屬性、喜好后,結(jié)合用戶的指令進行更加個性化的服務。

舉個簡單的例子。人工智能對話理解系統(tǒng)通過對以往對話的分析,了解到用戶喜歡孫燕姿。那在用戶想聽歌時,智能音箱可以主動推送孫燕姿的專輯給用戶,當用戶打開智能電視時,出現(xiàn)的第一個畫面是與孫燕姿演唱會相關(guān)的電視節(jié)目等等,這是相對高級的智能的表現(xiàn)。

因為之前國內(nèi)外在對話理解方面的算法還不夠精準,所以目前很多智能家居還停留在初級智能、甚至初級智能未完成的階段。

但可喜的是,2016年國內(nèi)人工智能技術(shù)突飛猛進,其中深耕于人機對話理解、情感識別技術(shù)的人工智能公司竹間智能科技(Emotibot)就取得了很好的成果。

Emotibot的對話理解系統(tǒng),可以無縫的plugin到任何智能家居上,使智能家居具備精準的理解用戶意圖的能力。這個系統(tǒng)不僅更夠準確判斷用戶表達的意思,還能通過對用戶對話的提取和分析,建立多達40個維度的用戶畫像屬性,如喜歡的歌手是孫燕姿、喜歡的演員是劉德華、喜歡涼爽的天氣等。通過這些用戶個性化標簽,可以打通整個產(chǎn)業(yè)鏈,為用戶提供服務:從音樂收聽到專輯推薦到演唱會到觀看視頻,一一滿足用戶個性化的需求。

基于用戶喜好的個性化推薦是通過歷史數(shù)據(jù)分析而得,那如何分析用戶當前狀態(tài),從而更好的滿足用戶需求呢?情感計算就是人工智能理解人類更加高級的手段,智能家居(機器人)通過理解人類的情感,從而為人類提供更好的服務。

當人們下班拖著疲勞的身體時,會想聽到一首舒緩的歌曲來緩解身心疲勞。此時用戶跟音箱說“來首歌吧”,智能音箱可以通過對用戶當下語音和文字的情緒的分析,了解到用戶當前的情緒是【疲憊】,這時它就自動播放【舒緩歌曲】。

當人們失戀時,對智能電視說“失戀了看什么電影好?”,此時智能電視能通過語音和文字的情緒分析,了解用戶當前的情緒是【哀傷】,就為用戶推薦失戀勵志片【失戀三十三天】,并可以對用戶說“分手了就做回自己,一個人的世界同樣有月升月落,曾經(jīng)美麗的瞬間,就把他歸為記憶吧”。這時的智能家居不僅能提供服務,還能與用戶進行情感對話,幫助用戶走出失戀陰霾。

了解人類的情感,是打破冷冰冰的人機對話之法寶,也只有在理解人類表達的意思的基礎(chǔ)上,加上對人類情感的了解,并針對情感做出不同的反應,才能讓人類更加信任、依賴包括智能家居的所有Bot,建立起雙方之間的情感紐帶。

較準確地識別用戶表達的文字意思或許已經(jīng)有少部分公司也可以實現(xiàn)了,但能準確識別用戶情感的公司基本找不出第二個。Emotibot是首家致力于讓機器了解人類情感的人工智能公司,其采用的多模態(tài)情感識別技術(shù)是基于最前沿的深度學習而產(chǎn)生,是讓機器理解人類情感的顛覆性技術(shù),由Emotibot與情感計算的概念提出者Picard教授聯(lián)合研發(fā)出來的。

多模態(tài)情感識別技術(shù)主要包含三大模塊:圖像情感、語音情感和文字情感。這三個模塊,分則能獨立判斷用戶單一維度下的情緒;合則能綜合加權(quán)判斷用戶整體的情緒。

那這三個模塊具體是怎么運作的呢?

在圖像情感層面,能通過人臉關(guān)鍵點的檢測與人類表現(xiàn)情感時的特征進行匹配,從而判斷出用戶的7種情緒(喜、怒、哀、驚、懼、厭惡、中性);

語音情感則是基于深度神經(jīng)網(wǎng)絡,通過監(jiān)督式學習,提取海量情緒數(shù)據(jù)的特征,對用戶話語中的情緒進行預測(喜、怒、哀、中);

文字情感通過超過百萬的高質(zhì)量語料進行情感定義,提取共性特征,進行RuleBase和Learning Base模型的建立,從而識別用戶的文字情感,如用戶表述“我喜歡一個女孩子,可是每次跟她表白,她不是說別逗了,就是說你有病吧,你說我該咋辦啊”,則文字情緒識別結(jié)果:不滿、喜好、寂寞、疑惑。目前Emotibot可識別的文字情緒為22種,仍在持續(xù)擴展中。

當三個模塊協(xié)同工作時,則可以更為精準的分析出用戶當前的情緒。人類情緒是由多個層面構(gòu)成的,當用戶表達“我很開心”時,在文字層面會識別成【開心】,但是如果圖像和聲音層面判定用戶為哀傷,則會結(jié)合三個維度進行加權(quán)平均,判定最終情緒為【哀傷】,真正的讓智能家居多維度的理解人類,讓用戶驚喜、尖叫。

未來一定是個萬物智能的智聯(lián)網(wǎng)時代,智能家居不僅能感知世界,還能理解人類,進行判斷和決策后,為用戶提供各式各樣的功能和服務。

暢想一下不遠的某天,當你起床時智能窗簾能識別你的起床動作并自動打開,讓你看到湛藍的天空;智能音箱根據(jù)你的習慣與需求,播放你感興趣的體育新聞、天氣預報以及路況;智能電視在你打開電視之前為你存下了想看卻沒來得及看的球隊比賽;智能空調(diào)根據(jù)外界溫度和你的習慣,自動調(diào)到了最適宜的溫度;甚至有一個實體的Bot,就像大白一樣,了解你的情感和語言,懂你所想,做你所想。

而這些場景的實現(xiàn)因為Emotibot的對話理解技術(shù)和多模態(tài)情感識別技術(shù)的出現(xiàn)變的越來越有可能,就像竹間智能的創(chuàng)始人兼CEO簡仁賢先生所說“人工智能技術(shù)不是大公司的專利”,Emotibot通過免費開放最前沿的人工智能技術(shù),希望能與整個智能家居產(chǎn)業(yè)的上下游廠商一起實現(xiàn)家居的全智能化,讓暢想中的智能未來更早到來。

鏈接已復制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號