捷通華聲靈云打造基礎科研及智能應用雙翼

責任編輯:曹建菊

作者:曹建菊

2014-03-20 08:49:07

來源:企業(yè)網(wǎng)D1Net

原創(chuàng)

語音識別技術,由于技術門檻更高,語音應用的范圍更廣,市場潛力巨大,所以吸引了很多國際國內(nèi)很多廠商的關注。有驚喜并不代表著一個行業(yè)就此步入了快車道,在北京捷通華聲語音技術有限公司董事長張連毅的戰(zhàn)略布局里:基礎科研及智能應用的雙翼才能真正助力HCI騰飛。

外出采訪前,預約了嘀嘀打車,等候的空隙,刷著微博,馬航失聯(lián)已超過十天,心一直為馬航的239個生命懸著,一遍遍的探尋“飛機去哪里了?”助飛機騰飛的雙翼能把普通大眾帶向哪里呢?

倒是嘀嘀打車還算給力,語音提示里小姑娘的聲音似乎有些熟悉,沒太在意,上車后就直奔中關村軟件園,今天采訪的對象是北京捷通華聲語音技術有限公司董事長張連毅。

捷通華聲近一年好事不斷,先有百度戰(zhàn)略投資,繼之又與清華大學達成戰(zhàn)略合作,如此頻繁的動作讓這家一直低調(diào)的公司備受關注。企業(yè)網(wǎng)D1Net也期望通過此次采訪,了解中國智能人機交互產(chǎn)業(yè)是否真如外界資本追捧的那樣,已開始步入快車道。

負責接待我的還是小楠,這是一個笑意盈盈,嗓音清爽而甜美的女孩。與她笑侃了一通現(xiàn)在嘀嘀打車真方便而實惠的話題,她則沉穩(wěn)的回答:“是呀,現(xiàn)在嘀嘀打車真的很火,你知道嗎?嘀嘀打車的語音提示就是捷通華聲的技術,而那個女孩的聲音來源就是我。”

怪不得對這聲音有熟悉感!實際上,以語音技術為代表的智能人機交互技術(HCI)已越來越多的融入我們的工作生活里,從普通大眾熟悉的手機觸摸技術,到蘋果的Siri、公交車、地鐵站的報站以及汽車導航等語音技術的運用,HCI技術已帶給我們太多的驚喜。

有驚喜并不代表著一個行業(yè)就此步入了快車道,在北京捷通華聲語音技術有限公司董事長張連毅的戰(zhàn)略布局里:基礎科研及智能應用的雙翼才能真正助力HCI騰飛。

上圖為:北京捷通華聲語音技術有限公司董事長張連毅

戰(zhàn)略定位:向平臺服務轉型

捷通華聲的轉型之路從2011年開始,從技術提供商到解決方案提供商至2013年正式?jīng)Q定轉型至平臺服務商的身份,捷通華聲只用了兩年時間。

轉型必然陣痛,在張連毅看來,這是產(chǎn)業(yè)發(fā)展的必然結果,隨著互聯(lián)網(wǎng)、大數(shù)據(jù)應用趨勢及云計算技術的發(fā)展推動,捷通華聲原有的產(chǎn)品體系已不適應市場的發(fā)展。所以在2013年,捷通華聲從發(fā)展方向、產(chǎn)品形態(tài)及市場規(guī)劃等方面進行了重新梳理,并引進了百度資本,進行了全方位的改革。

百度投資:應用先行

張連毅認為,與百度合作,使捷通華聲的各種智能人機交互應用得到了真正的落地。百度的多種產(chǎn)品,都需要捷通華聲的相關技術作為支撐,比如百度地圖、百度導航、百度翻譯,百度語音助手這些產(chǎn)品都用到了捷通華聲的語音合成技術。

另一方面,百度也在積極尋找產(chǎn)業(yè)協(xié)作層面的合作,共同探討在2B領域延展百度的市場拓展。

基于各種對語音應用上的探索,使捷通華聲在原有語音技術上的研究也得到了全面的應用檢驗。

隨著語音技術得到越來越多的應用,張連毅在思考:“如果語音的基礎研究跟不上,未來的發(fā)展必然會遇到瓶頸。”他清醒的認識到:作為一個民營的語音技術提供商,尤其是希望打造成為HCI平臺服務商,要發(fā)展,必須要有更加深厚與寬廣的基礎研究成果。

背靠大樹好乘涼!這個思路為2013年年底捷通華聲與清華大學戰(zhàn)略合作做好了鋪墊。

清華大學:基礎研究

捷通華聲致力于發(fā)展全方位HCI技術研究與應用,但也意識到,捷通華聲不能完全僅憑自己的能力全面發(fā)展HCI技術,而在HC技術領域,清華大學的研究力量一直是全國最強大的,而且,張連毅自己也出自清華,當他再次走進清華大學,認為只是自然的回歸而已。只不過,張連毅在回歸的過程中,也在找尋著自身企業(yè)發(fā)展的方法。就如一個原本就很刻苦、很努力學習的學生,如果能找到好的學習方法,那在學習上就一定會事半功倍。

張連毅找到的這個方法就是與清華大學合作,助力清華大學在HCI領域的基礎研究成果與廣大的市場需求對接,而清華大學也在探索產(chǎn)、學、研一體化創(chuàng)新體制,也希望通過捷通華聲的靈云平臺,將其基礎研究成果轉化為真正的生產(chǎn)力,服務產(chǎn)業(yè)、服務社會大眾,雙方的合作將共同努力實現(xiàn)“靈云科技、源自清華、服務全球”長遠發(fā)展戰(zhàn)略。

因此,在HCI的戰(zhàn)略格局上,捷通華聲部署的雙翼已完成,雙翼將安裝在捷通華聲靈云平臺強大的機身上,才能實現(xiàn)HCI的真正騰飛。

靈云平臺:超強機身

目前,智能語音交互仍然是最重要的人機交互手段,但正如同人和人的溝通一樣,并不只是依靠語言,文字書寫、圖像、情感表達也都是交流的組成部分。

所以,要實現(xiàn)真正意義上的簡單自然的交流,必須要依靠各種人機交互技術,結合各種復雜的場景,實現(xiàn)隨時、隨地、隨場景的交流與溝通。

為達到上述愿景,捷通華聲于2011年12月08日打造出靈云平臺。靈云平臺是國內(nèi)首個全方位智能人機交互(HCI)技術開放平臺。

靈云不僅僅局限于語音云服務等某一項單一的HCI技術,而是一種可以用語音、手寫、拍照,手勢甚至是未來腦波識別等智能手段來操作、感知手機、計算機等數(shù)字設備的網(wǎng)絡云服務。

目前,靈云以“云+端”的方式,為用戶提供語音合成、語音識別、手寫識別、光學字符識別、自然語言理解等智能人機交互技術服務,其目標就是力求讓人機交互與人與人的溝通一樣簡單自然。

由此可見,靈云平臺本身已超越了大家所熟知的手寫識別、語音識別等領域,而是期望從更寬廣的角度、更完整的視野去詮釋人機交互的各種場景,并最終實現(xiàn)各種應用。

靈云起飛:需平衡短板

任何企業(yè)的成功,必然離不開天時、地利、人和等因素。靈云平臺生逢其時,愿景很美好,捷通華聲打造的靈云平臺設計初衷也非常美好,但其自身實力是否能真正承載這一設計?

靈云平臺作為全方位智能人機交互技術開放平臺,綜合了語音合成、語音識別、手寫識別、光學字符識別、自然語言理解等各項HCI技術,捷通華聲在這些領域的技術積累情況如何呢?是否真正做好了準備?

首先看手寫識別、光學字符識別技術,這兩方面的技術積累已然成熟,捷通華聲對此有多年的應用案例積累,在此不做過多的闡述。

重點從語音技術說起,目前國內(nèi)將語音技術分為語音合成與語音識別兩個方面。語音合成技術在中國已有十多年歷史,應用范圍很廣,包括各種播報、導航等應用較多。目前中國市場幾乎由捷通華聲、科大訊飛兩家公司控制,兩家公司的市場份額相當。

而語音識別技術,由于技術門檻更高,語音應用的范圍更廣,市場潛力巨大,所以吸引了很多國際國內(nèi)很多廠商的關注。

國際知名的語音識別公司Nuance、Google、微軟起步甚早,國內(nèi)科大訊飛依靠科技大學的科研力量,以及在資本市場上獲得的研發(fā)資金支持,在中國語音識別領域儼然是快人一步。與此同時,中科信利、得意音通等傳統(tǒng)新秀語音企業(yè),再加上百度、搜狗、騰訊等由于自身業(yè)務需求應用,也在通過資本收購或者自主研發(fā)進軍語音識別市場。

語音識別市場這樣的競爭格局,顯然對捷通華聲并不是特別有利,而捷通華聲傾力打造的HCI靈云平臺,如果語音識別這樣的重磅的技術不能取得領先,那無異于等同于缺少了左膀右臂。

張連毅推動捷通華聲通過與清華大學的戰(zhàn)略合作,將語音識別技術的短板迅速拉升。“清華大學的語音識別基礎研究已經(jīng)幫助捷通華聲在半年內(nèi)將語音識別技術提高到國內(nèi)最高水平。過去清華大學語音研究力量也一直處在產(chǎn)業(yè)幕后的地位,這次合作,我們將清華科技推向前臺,向產(chǎn)業(yè)界充分展現(xiàn)清華大學在語音技術領域的絕對實力!”張連毅如是說。

而自然語言理解技術,相比語音識別技術更具挑戰(zhàn),自然語言理解技術應用目前已處于爆發(fā)前的起步期,應用靈云越來越廣,捷通華聲已經(jīng)與清華大學幾個國內(nèi)頂尖自然語言理解技術實驗室建立多領域的合作,并與捷通華聲自身核心技術相結合,迅速推出了應用最領先技術自然語言理解技術的靈云智能客服系統(tǒng)。

在新的HCI技術領域,如生物特征識別,一些技術已經(jīng)成熟,一些技術如腦波識別技術,還處于實驗室研究階段,目前討論還為時尚早,張連毅認為,要未雨綢繆,應充分考慮到各種可能,靈云平臺將為生物特征識別技術預留接口。

靈云翱翔:合作共贏

在張連毅看來,合作伙伴至少有三個層次:

一是客戶合作伙伴:捷通華聲永遠都是客戶輝煌背后的支持者,可以默默無聞,從不喧賓奪主。可以是嘀嘀打車背后的聲音,也可以是“漢字英雄”背后的手寫輸入,還可以是導航的領路者。

二是戰(zhàn)略合作伙伴:無論是百度,還是清華大學,成為助捷通華聲HCI靈云平臺翱翔的雙翼。百度語音識別與靈云語音合成完美結合,助力百度地圖、百度導航掀起導航革命,同時讓捷通華聲語音技術應用得到落地;清華大學的基礎科研研究,則為捷通華聲構架起堅實的技術基礎。

三是渠道合作伙伴:捷通華聲希望與各個領域的渠道合作伙伴共同開啟HCI的跨世紀應用。捷通華聲與導航犬的合作,全面應用了靈云語音識別、語音合成、語義理解、語音喚醒等功能。

“只有依靠合作伙伴,才能讓靈云平臺騰飛。”張連毅強調(diào)。

企業(yè)網(wǎng)D1Net總結

采訪張連毅的過程,是對中國HCI產(chǎn)業(yè)重新認識與定義的過程,這個行業(yè)外表的風光與實際遇到的困境,可能只有身處其中的人才能真正理解。

雖然智能語音等HCI領域風光無限,資本市場的逐利屬性,讓HCI似乎前景甚好,而實際上,據(jù)小編觀察:如當今國內(nèi)的語音產(chǎn)業(yè),并沒有非常成功的前端語音產(chǎn)品可以主宰市場。功能上的同質化、用戶體驗不足、語音識別準確率不高、實用化尚有距離等因素依然限制著HCI產(chǎn)業(yè)的發(fā)展。

另一方面,相比較國外語音產(chǎn)業(yè),中國語音產(chǎn)業(yè)規(guī)模尚小,政府支持范圍有限,而且國內(nèi)個別企業(yè)設置各種壁壘,甚至人為“壟斷”,這些因素都限制了中國HCI的發(fā)展。

正如張連毅所說:一花獨放不是春,要鼓勵百花齊放。這個百花齊放我相信不僅僅是指捷通華聲靈云平臺本身需要包羅各種技術,需要聚攏更多合作伙伴,我更期待HCI的各個上下游環(huán)節(jié)的所有伙伴,在以國家利益和產(chǎn)業(yè)整體發(fā)展利益為總體規(guī)劃的前提下,各顯所能,共同發(fā)展。就如馬航的失聯(lián)客機,不要因為人為的狹隘干預,讓這架已經(jīng)啟航的飛機不知落于何處?

鏈接已復制,快去分享吧

企業(yè)網(wǎng)版權所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號