深度學(xué)習(xí)使計(jì)算機(jī)越來越智能

責(zé)任編輯:editor007

2015-02-05 22:04:48

摘自:百度百家

摘要 : 深度學(xué)習(xí)是為了讓人們更好地相信我們能做到用神經(jīng)網(wǎng)絡(luò)模擬人腦。巨大的引擎(神經(jīng)網(wǎng)絡(luò))和不斷累積的燃料(數(shù)據(jù))結(jié)合在一起,使我們能建造巨型火箭(深度學(xué)習(xí)算法)去騰飛。

摘要 : 深度學(xué)習(xí)是為了讓人們更好地相信我們能做到用神經(jīng)網(wǎng)絡(luò)模擬人腦。深度學(xué)習(xí)算法未來能沖擊世界,目前對我們所能進(jìn)行的測量來說,數(shù)據(jù)提供得越多,得到的結(jié)果就越好。在大數(shù)據(jù)環(huán)境下,新的人工智能算法較之前變得越來越好。

The BIG Talk在2015開年第一期首次走進(jìn)美國,以《迎接嶄新智能社會》為主題,邀請了100多位來自國內(nèi)最具影響力的主流媒體,科技垂直媒體及自媒體知名人士前往舊金山和硅谷,邀請十幾名世界級科技大咖,為科技界奉上一場關(guān)于智能社會技術(shù)的前瞻知識盛宴。

以下為百度首席科學(xué)家Andrew Ng(吳恩達(dá))在硅谷The BIG Talk專場活動中的主題演講:

主持人Jason Pontin開場:

大家好,歡迎來到BIG TALK – 未來就在這里。我是Jason Pontin ,MIT技術(shù)評論的主編。

這次的BIG TALK是第一次在硅谷主辦,也是第一次在中國大陸以外的地區(qū)主辦。首先歡迎遠(yuǎn)道而來的中國媒體朋友,歡迎你們來硅谷做客。本次論壇的主辦媒體是百度,這是一家在美國廣為人知的企業(yè),被譽(yù)為中國的谷歌。去年中,百度宣布將以三億美元在硅谷建造一個(gè)研發(fā)中心,并且聘用計(jì)算機(jī)科學(xué)領(lǐng)域的專家Andrew Ng,斯坦福大學(xué)教授,“深度學(xué)習(xí)”領(lǐng)域的先驅(qū)。深度學(xué)習(xí)是人工智能的一種形式,一種模擬人腦學(xué)習(xí)的軟件。它在人工智能領(lǐng)域掀起了一場革命,通過非常強(qiáng)大的模式識別形式,結(jié)束了人工智能長達(dá)十年未能有突破性進(jìn)展的局面。

接下來的五小時(shí)時(shí)間,我們將為大家展示在深度學(xué)習(xí)中,大數(shù)據(jù)分析是如何應(yīng)用到從機(jī)器人技術(shù)教育到金融及運(yùn)輸?shù)雀鱾€(gè)行業(yè)。它是我們生活的這個(gè)時(shí)代中計(jì)算機(jī)科學(xué)專業(yè)領(lǐng)域的重大突破。下面有請我們的重量級人物Andrew來為我們詳細(xì)闡述深度學(xué)習(xí)的原理以及其重要作用。

Andrew Ng:

非常高興大家可以在硅谷相聚。過去幾年里,有一種人工智能開始飛速發(fā)展,對硅谷產(chǎn)生了重大影響。正如Jason所講,今天你會了解到人工智能如何沖擊并改變醫(yī)療保險(xiǎn)、教育及其他領(lǐng)域。當(dāng)然,大家也會認(rèn)識到這里面也有一點(diǎn)炒作的成分。

今天我想和大家分享兩件事情。第一點(diǎn),到底什么是深度學(xué)習(xí),在深度學(xué)習(xí)領(lǐng)域里到底發(fā)生了什么?在接下來的二十分鐘里,希望可以讓大家知道這樣是什么樣的技術(shù)。第二點(diǎn),請?jiān)谧魑桓餍懈鳂I(yè)的佼佼者們在策略上思考,你們的公司、學(xué)?;蚱髽I(yè)應(yīng)該還是不應(yīng)該應(yīng)用這種深度學(xué)習(xí)的技術(shù)。

多年以來,我們一直有這樣的想法,就是在人工智能的虛擬圈里做一個(gè)很好的產(chǎn)品,吸引眾多用戶使用,并為我們提供很多數(shù)據(jù),使這個(gè)人工智能產(chǎn)品變得越來越好,而這樣又能讓你得到越來越多的用戶,如此產(chǎn)生人工智能的良性循環(huán)。但是這種想法并沒有得到實(shí)現(xiàn),因?yàn)檫@個(gè)循環(huán)里缺失的最大一環(huán)恰恰是人工智能。我們來看一下早期的人工智能算法,即使有很多的數(shù)據(jù)支持,其表現(xiàn)也并未提升。拋掉炒作的成分,為什么深度學(xué)習(xí)算法能沖擊世界,我認(rèn)為一個(gè)非常根本的原因就是對目前我們所能進(jìn)行的測量來說,數(shù)據(jù)提供得越多,得到的結(jié)果就越好。所以在大數(shù)據(jù)環(huán)境下,新的人工智能算法較之前變得越來越好。這也是我們第一次可以在這個(gè)虛擬圈里完成整個(gè)循環(huán)。

網(wǎng)絡(luò)中的很多溝通交流都是通過文字進(jìn)行。十年前,網(wǎng)頁就是一堆文字。如今在百度,我們看到,溝通已經(jīng)越來越多地變成了圖像和語音,特別是在移動互聯(lián)網(wǎng)領(lǐng)域。百度公司成立已有十五年了,在這個(gè)方面的改進(jìn)也持續(xù)了十五年,所以我想借此機(jī)會跟大家分享人工智能如何實(shí)現(xiàn)在圖像和語音交流的方面。人工智能幫助我們理解互聯(lián)網(wǎng)上的溝通,為我們在世界各地提供更好的服務(wù)和更多的信息。

首先我們來談?wù)勅绾卫萌斯ぶ悄苓M(jìn)行圖像交流。

七年前,在斯坦福,我讓我的學(xué)生們寫程序識別咖啡杯的圖像。他們用了當(dāng)時(shí)最好的算法,而這就是他們得到的結(jié)果——他們發(fā)現(xiàn)到處都是咖啡杯。那為什么識別咖啡杯這么困難?圖像放大以后來仔細(xì)分析,在這些紅色的方塊下,我們看到了一個(gè)咖啡杯,電腦也看到了。但電腦的問題是,只能單純根據(jù)色素的亮度值、強(qiáng)度等數(shù)據(jù)定義咖啡杯。所以這是長久以來在電腦圖像方面不足的地方,但是在過去幾年我們已經(jīng)認(rèn)識到一種叫做神經(jīng)網(wǎng)絡(luò)的技術(shù)能夠幫助電腦識別和發(fā)送圖像。神經(jīng)網(wǎng)絡(luò)技術(shù)深受人腦工作模式的激發(fā),通過大量神經(jīng)元信號來互相傳遞腦電信息。神經(jīng)網(wǎng)絡(luò)模擬人腦,而算法使其更加智能,能夠識別單個(gè)物體。

有一種對深度學(xué)習(xí)的熱炒說法是神經(jīng)網(wǎng)絡(luò)模擬人腦很容易實(shí)現(xiàn)并應(yīng)用。這個(gè)有點(diǎn)夸張了,只是為了讓人們更好地相信我們能做到用神經(jīng)網(wǎng)絡(luò)模擬人腦。但神經(jīng)學(xué)家們知道,我們目前還無法了解人腦的工作模式。我一個(gè)伯克利大學(xué)的朋友開玩笑說,神經(jīng)網(wǎng)絡(luò)有點(diǎn)像大腦的卡通畫。我覺得他說得很對。深度學(xué)習(xí)就是一種神經(jīng)網(wǎng)絡(luò),我們這些探索深度學(xué)習(xí)領(lǐng)域的人強(qiáng)烈意識到,我們所建立的智能平臺是一種超級簡單化了的卡通大腦,其更復(fù)雜的一面我們目前還無法了解。不過我們開發(fā)的軟件程序可以使我們識別物體,比如我們給咖啡杯照一張相,把大量數(shù)據(jù)和圖像傳輸給神經(jīng)網(wǎng)絡(luò),它就能識別咖啡杯。這只是簡單識別物體,現(xiàn)在我們已經(jīng)能很輕松地做到這一點(diǎn)了,但是計(jì)算機(jī)視覺比這個(gè)要復(fù)雜得多。比如我們看這幅圖像,這就不是看一個(gè)咖啡杯那么簡單了。如果讓你對這幅圖進(jìn)行描述,你可以寫黃色大巴開在路上,右邊的圖描述的是一間灑滿陽光的起居室。你能夠準(zhǔn)確寫下圖像的注解,源自你對這個(gè)圖像的深度理解。那可不可以讓電腦像我們這樣理解圖片呢?如果要讓你用中文來注解這張圖片,同樣,你就看這個(gè)圖片描述,這個(gè)棒球運(yùn)動員準(zhǔn)備擊球,一個(gè)人在沖浪,一輛車停在現(xiàn)場。所以,電腦是否可以像我們這樣理解圖像,取決于我們對這個(gè)圖像的注解。我想給你們一個(gè)驚喜,這個(gè)圖解字幕不是人寫的,而是電腦。它的工作原理是,我們開發(fā)一個(gè)系統(tǒng),輸入圖像后可以自動提供圖解。這是一種神經(jīng)網(wǎng)絡(luò)。百度是第一家使用現(xiàn)有的神經(jīng)網(wǎng)絡(luò)發(fā)明這項(xiàng)技術(shù)的公司,之后有好幾家公司跟隨我們的步伐。

所以我們今天的計(jì)算機(jī)視覺技術(shù)水平到底到達(dá)了一個(gè)什么樣的高度呢?我們目前已經(jīng)研發(fā)了一項(xiàng)能夠深度識別并理解圖像的技術(shù)。剛才我們用電腦輸出的中文圖解是第一次對美國觀眾進(jìn)行展示。我們已經(jīng)擁有了這項(xiàng)非常復(fù)雜的計(jì)算機(jī)視覺技術(shù),然而目前的最大挑戰(zhàn)是把它應(yīng)用到哪里?計(jì)算機(jī)視覺技術(shù)在過去五年有長足的發(fā)展,不過我們并不太明確具體的應(yīng)用場合,比如醫(yī)學(xué)影像、圖像搜尋,搜索你可以買什么衣服等等。百度以及其他公司擁有這種計(jì)算機(jī)視覺技術(shù)的公司可以更好地嘗試開發(fā)相關(guān)產(chǎn)品和應(yīng)用,雖然今天我們也不知道最好的應(yīng)用是什么,但我相信未來幾年計(jì)算機(jī)視覺技術(shù)會有更大的發(fā)展。

計(jì)算機(jī)視覺是深度學(xué)習(xí)帶來的互聯(lián)網(wǎng)革命之一。為什么目前深度學(xué)習(xí)(神經(jīng)網(wǎng)絡(luò))會有如此快速的發(fā)展呢?這是因?yàn)槲覀兘⒘擞行У纳疃葘W(xué)習(xí)算法。舉個(gè)例子:建造火箭。火箭由兩個(gè)部分組成,很大的引擎和很多燃料;宇宙火箭也不過是有更大的引擎和很多的燃料。如果只有很大的引擎但燃料不多便無法工作的,反之亦然。必須要由巨大的引擎搭配超多的燃料才行得通。同理,建立一個(gè)深度學(xué)習(xí)算法就必須要建造一個(gè)很大的神經(jīng)網(wǎng)絡(luò)作為引擎來支撐算法,于是我們就可以建造更大的神經(jīng)網(wǎng)絡(luò)來支撐更復(fù)雜的算法;而數(shù)據(jù)就是燃料,在如今這個(gè)數(shù)據(jù)化社會的時(shí)代,從醫(yī)療保健到金融到教育各個(gè)領(lǐng)域,我們能夠較以前拿到更多的數(shù)據(jù)。巨大的引擎(神經(jīng)網(wǎng)絡(luò))和不斷累積的燃料(數(shù)據(jù))結(jié)合在一起,使我們能建造巨型火箭(深度學(xué)習(xí)算法)去騰飛。近年的深度學(xué)習(xí)就是讓火箭騰飛。大概在2010年,最大的神經(jīng)網(wǎng)絡(luò)有一千萬個(gè)連接點(diǎn),即模擬神經(jīng)元和模擬線路連接。幾年前我就在谷歌開始了一個(gè)云項(xiàng)目,用谷歌的基礎(chǔ)網(wǎng)絡(luò)(一千臺電腦)建立十億個(gè)連接點(diǎn)的神經(jīng)元網(wǎng)絡(luò),百倍于2010年,這其實(shí)為深度學(xué)習(xí)帶來很大進(jìn)展。后來我意識到這是一項(xiàng)非常昂貴的技術(shù),得用到一千臺電腦。所以我和幾個(gè)朋友希望能換一種方式,用其他技術(shù)來代替這么多臺電腦。于是我們只用了三臺電腦,使用GPU技術(shù)(GRAPHICS PROGRESSING UNIT),即用電腦里的一塊硬盤設(shè)計(jì)圖像處理技術(shù),可以建立十倍于過去的龐大神經(jīng)網(wǎng)絡(luò)。用GPU作為基礎(chǔ)技術(shù),百度已經(jīng)在硅谷及中國建立了越來越大的神經(jīng)網(wǎng)絡(luò)。從百度的角度來說,我們是第一個(gè)將GPU技術(shù)應(yīng)用到深度學(xué)習(xí)的公司,這就像是一個(gè)火箭引擎,能夠支撐我們完成很多深度學(xué)習(xí)的工作。我們也很高興看到有很多公司正在追隨我們的腳步。

接下來我們來談?wù)務(wù)Z音識別。

舉個(gè)實(shí)例來說明深度學(xué)習(xí)是如何改變互聯(lián)網(wǎng)世界的?,F(xiàn)在,百度很多用戶使用語音搜索,因?yàn)橹袊泻芏嗄暧椎挠脩?、年長的用戶或文化程度不高的用戶無法使用拼音打字搜索,所以語音是目前唯一可以讓我們知道他們需求的搜索方式。手機(jī)在安靜的環(huán)境中可以很好地識別你的語音,但如果在嘈雜的環(huán)境中,比如開車時(shí)或在熙攘的餐廳中,語音識別效果就不是很好。我們要想辦法解決這個(gè)問題。以前的語音識別系統(tǒng)非常復(fù)雜,工程師要編寫軟件,將語音小片段輸入系統(tǒng)中,通過語音匹配來識別你所說的話。幾個(gè)月前,我們決定用神經(jīng)網(wǎng)絡(luò)來替換這種傳統(tǒng)的語音識別方式,通過建立龐大的神經(jīng)網(wǎng)絡(luò)(火箭發(fā)動機(jī)引擎)來進(jìn)行語音識別。對于火箭燃料,一般來說最大的語音識別數(shù)據(jù)為兩千小時(shí),但我們想使用七千小時(shí)的語音數(shù)據(jù),是之前燃料的三倍多(大家可以查閱學(xué)術(shù)文章),可是又覺得不夠,又說從這七千小時(shí)語音數(shù)據(jù)總結(jié)出十萬多個(gè)小時(shí)的數(shù)據(jù),終于準(zhǔn)備好了火箭燃料。通過矩陣排列把這些數(shù)據(jù)結(jié)合在一起,我們可以在較短的時(shí)間當(dāng)中建立一個(gè)龐大的語音識別系統(tǒng),比目前其他的公共API系統(tǒng)都好很多,不僅在安靜的環(huán)境中,即使在嘈雜的環(huán)境中也表現(xiàn)得很好。秘訣就是我們有很大的引擎和很多的燃料。

為什么要說這個(gè)語音識別問題呢?現(xiàn)在市場上有很多的相類似產(chǎn)品,而語音是互聯(lián)網(wǎng)改革的一個(gè)重要因素。全世界都在改進(jìn)移動互聯(lián)網(wǎng),在這個(gè)方面,中國其實(shí)領(lǐng)先于美國和其他國家很多。移動互聯(lián)網(wǎng)已經(jīng)成為我們生活里很重要的部分,所以我們會在小小的鍵盤上用打字的方式溝通。即使在嘈雜的環(huán)境中,如果我們通過講話就給對方發(fā)消息,便能讓語音識別更好地為我們服務(wù)。即使我在開車,我的手機(jī)在副駕駛座上,我也可以通過說話便能給我的另一半發(fā)送消息。如果語音識別繼續(xù)改進(jìn)的話,我很樂意圍繞語音界面來重新設(shè)計(jì)手機(jī)的功能。如果語音識別能更好地為我們工作,它就會改變我們在座各位和手機(jī)的相互作用。

除了移動設(shè)備外,語音識別也會對互聯(lián)網(wǎng)帶來變個(gè)性的影響,包括汽車顯示界面和家用電器等。我想在不久的將來,你可能不需要用到遙控器了。我家里有五個(gè)電視機(jī)遙控器,但總是找不到,以后我也不需要用到它了,直接對著電視機(jī)說話就行。我現(xiàn)在還沒有下一代,但是我希望有一天我的兒子或?qū)O子一輩,可以問我說:在我小時(shí)候,你跟你的微波爐講話它卻沒有反應(yīng)這是真的嗎?太不禮貌了。我相信語音識別技術(shù)會給我們的生活帶來很多改變。

總結(jié)一下,互聯(lián)網(wǎng)的交流方式有很多,如文字、圖像和語音等。以一個(gè)科學(xué)家的身份來說,互聯(lián)網(wǎng)上有太多的數(shù)據(jù)需要處理,而我們可以以引擎和燃料通過深度學(xué)習(xí)的方式來解決這些問題。深度學(xué)習(xí)可以幫助計(jì)算機(jī)理解所有的數(shù)據(jù),是目前已知的改變互聯(lián)網(wǎng)的最好技術(shù)。通過這種人工智能技術(shù),我們很有可能通過文字、圖像和語音來改變和我們身邊所有其他技術(shù)的交流方式,也可以帶來其他領(lǐng)域如金融、醫(yī)療保健和教育這些方面的變化。你們可以看出來我非常興奮,我相信人工智能能夠讓我們的生活變得更加美好。

另外還有些炒作的內(nèi)容,過去幾年有很多人提到了邪惡的機(jī)器人可能會帶來負(fù)面影響,電腦變得比人更聰明由此掌控這個(gè)世界。盡管我們現(xiàn)在掌握的技術(shù)是非常好的,但神經(jīng)網(wǎng)絡(luò)與人腦相比還遠(yuǎn)遠(yuǎn)處于原始狀態(tài),我個(gè)人也不知道怎么建造出有自我感知能力的機(jī)器人。當(dāng)然,我對于技術(shù)是很有激情的,我相信人工智能會改變我們的生活,給成千上萬人的生活帶來變化。有些炒作或擔(dān)心我覺得沒有必要。期待未來!非常感謝!

Q&A

問:Andrew,我想請教幾個(gè)問題。這些算法并不是剛剛存在,十五年前就有研究,期間發(fā)生了很多變化。百度并不是唯一一家研究深度學(xué)習(xí)的公司,你的前東家谷歌也在努力鉆研,很多其他公司也都在做。什么改變了?更多的燃料,更大的數(shù)據(jù)庫?更快的處理能力,更大的引擎?

答:我了解到一個(gè)事情,就是比如你使用一個(gè)軟件,在很慢的機(jī)器里沒法運(yùn)行,但用更快的電腦就可以了。我們現(xiàn)在的優(yōu)勢就是電腦越來越快,數(shù)據(jù)越來越多。做軟件其實(shí)是個(gè)很難的事情,但是比起二十年前,做軟件的環(huán)境已經(jīng)好很多了。

問:現(xiàn)在價(jià)格已經(jīng)顯著下降了。Andrew,當(dāng)年在谷歌由16個(gè)程序員使用一千臺電腦沒人做一個(gè)10億連接點(diǎn)的鏈接是很夸張的。但是現(xiàn)在做這個(gè)就很便宜了是吧?

答:降低成本的很大一個(gè)原因是我們意識到,還有很多更好的技術(shù)值得應(yīng)用。谷歌在云技術(shù)方面有很大的優(yōu)勢,當(dāng)年我?guī)ьI(lǐng)谷歌深度學(xué)習(xí)團(tuán)隊(duì)“綠色團(tuán)隊(duì)”工作時(shí),我們用云技術(shù)建立神經(jīng)網(wǎng)絡(luò)是沒問題的,我們用這個(gè)方法解決了很多問題。但是隨后我們發(fā)現(xiàn),我們可以不用云技術(shù),轉(zhuǎn)而用高效的超級計(jì)算機(jī)技術(shù)來降低成本,可以建立更大的模型。如果在云里面將需要成千的電腦來完成這項(xiàng)工作。電腦的壽命只有幾年時(shí)間,因此必須要防止電腦壞掉。所以百度投資建造了HPC電腦,使用HPC技術(shù)建立神經(jīng)網(wǎng)絡(luò)比之前幾代技術(shù)都要好很多,目前百度的這項(xiàng)技術(shù)是世界領(lǐng)先的。

問:剛才Andrew已經(jīng)介紹了什么是深度學(xué)習(xí)。他提到一個(gè)有趣的事情是,很多人只需通過智能手機(jī)就可以上網(wǎng)。其中一個(gè)應(yīng)用就是語音識別,深度學(xué)習(xí)可以讓從未上過網(wǎng)的人們接觸到網(wǎng)絡(luò),是這樣嗎?

答:智能手機(jī)是個(gè)很親密的裝置。我在中國有一個(gè)iPhone 6 plus,我很多美國朋友都問我為什么不用iPhone 6,plus太大了。但是在中國大家就覺得我的手機(jī)很小。在中國,智能手機(jī)大屏幕可以來工作,這是很好的機(jī)會,做更多的事。在美國我們一直在用桌上電腦,沒有很多人用移動電腦。但是在中國這是很好的機(jī)會。

問:最后一個(gè)問題,Andrew談到了一些關(guān)于深度學(xué)習(xí)的恐懼,當(dāng)然他是夸張的,但是有些聰明的人都被嚇到了。Elon Musk 和Steven Hawking找了一些人工智能專家組成了一個(gè)未來學(xué)院。你自己覺得為什么他們會如此恐懼和擔(dān)憂?

答:有時(shí)候我覺得霍金掌握了一些關(guān)于秘密的人工智能技術(shù),而我不知道。但我不覺得會有聰明的邪惡機(jī)器人掌控地球,不過這樣的炒作實(shí)際上給人類社會提出了不同的挑戰(zhàn),比如就業(yè)。在很久時(shí)間里,技術(shù)給人類帶來了很多機(jī)會,但從歷史角度來說,技術(shù)提出了很多就業(yè)方面的挑戰(zhàn)。比如美國,我們花了兩百年從農(nóng)業(yè)經(jīng)濟(jì)發(fā)展到如今不到2%的人從事農(nóng)活。技術(shù)取代了農(nóng)業(yè)專業(yè),農(nóng)民可以讓后代做不同的工作,而我們的教育系統(tǒng)可以實(shí)現(xiàn)他們的愿望。我們現(xiàn)在面臨的挑戰(zhàn)是,技術(shù)的變革越來越快,因此需要重新訓(xùn)練人的技能,比如汽車產(chǎn)業(yè),美國有三百五十萬的卡車司機(jī)必須重新找工作。如今的教育系統(tǒng)面臨著的困難是,要訓(xùn)練大量的人適應(yīng)新的生活方式,而不是訓(xùn)練后代。我擔(dān)心的是沒辦法及時(shí)訓(xùn)練需要的人。機(jī)器人的惡意炒作實(shí)際上是嚴(yán)肅的勞工話題,是學(xué)術(shù)界、政界的障眼法。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號