在YouTube和Twitch上播放的一系列游戲比賽中,AI玩家連續(xù)10場(chǎng)擊敗人類玩家。在最后一場(chǎng)比賽中,職業(yè)游戲玩家科明茨(Grzegorz “MaNa” Komincz)為人類奪取了一場(chǎng)勝利。
DeepMind公司的研究負(fù)責(zé)人大衛(wèi)·西爾弗(David Silver)在比賽結(jié)束后表示:“人工智能在不同的游戲比賽中取得的成績(jī),成為人工智能發(fā)展的重要里程碑。我希望——盡管顯然還有工作要做——未來的人們可能會(huì)回顧今天,并認(rèn)識(shí)到這是人工智能系統(tǒng)潛在能力又邁出的重要一步。”
在電子游戲中打敗人類看起來像是人工智能發(fā)展中的一場(chǎng)雜耍,但這其實(shí)是一個(gè)重大的研究挑戰(zhàn)。像“星際爭(zhēng)霸2”這樣的游戲比棋類游戲(如國(guó)際象棋或圍棋)更難玩。在電子游戲中,人工智能軟件實(shí)體不能通過觀察每一個(gè)棋子的運(yùn)動(dòng)來計(jì)算下一步的動(dòng)作,他們必須實(shí)時(shí)作出反應(yīng)。
這些因素看起來并不是DeepMind人工智能游戲玩家系統(tǒng)(AlphaStar)的主要障礙。首先,它擊敗了職業(yè)玩家達(dá)里奧“TLO”Wünsch,然后它開始挑戰(zhàn)科明茨。一系列比賽最初于去年12月在DeepMind的倫敦總部舉行,但今天對(duì)科明茨的最后一場(chǎng)比賽提供了直播,這位職業(yè)玩家為人類帶來了一場(chǎng)勝利。
專業(yè)的星際爭(zhēng)霸評(píng)論員形容AlphaStar的表現(xiàn)是“非凡的”和“超人的”。
在“星際爭(zhēng)霸II”中,首先需要從同一張地圖的不同位置開始,隨后建立基地、訓(xùn)練軍隊(duì)和入侵?jǐn)橙祟I(lǐng)土。AlphaStar特別擅長(zhǎng)所謂的“微管理”(Micromanagement),即在戰(zhàn)場(chǎng)上快速果斷地控制部隊(duì)的能力。
盡管人類玩家有時(shí)能訓(xùn)練出更強(qiáng)大的軍隊(duì),但AlphaZero仍能在近距離擊敗他們。在一場(chǎng)游戲中,AlphaStar用一個(gè)快速移動(dòng)的“潛行者”(Stalker)聚集了法力。評(píng)論員凱文“鹿特丹”范德科形容它實(shí)現(xiàn)了“非凡的軍隊(duì)控制,這不是一般人平時(shí)所能看到的水平。”
在游戲比賽結(jié)束之后,科明茨表示:“如果我和任何人類對(duì)手比賽,他們就不會(huì)以這么高的水平對(duì)‘潛行者’進(jìn)行微操控。”
這一事件與我們從其他高級(jí)人工智能游戲玩家中看到的行為相呼應(yīng)。
去年,當(dāng)OpenAI公司的AI玩家參加Dota 2的比賽時(shí),他們最終被人類玩家所擊敗。不過,當(dāng)時(shí)業(yè)內(nèi)專家點(diǎn)評(píng)指出,AI軟件玩家表現(xiàn)出了優(yōu)秀的清晰度和準(zhǔn)確度,能夠快速無誤地做出判斷,這也是人工智能玩家的優(yōu)勢(shì)所在。
專家們已經(jīng)開始剖析這一次的游戲?qū)Q,并討論AlphaStar是否獲得了任何不公平的優(yōu)勢(shì)。人工智能玩家(軟件實(shí)體)在某些方面表現(xiàn)不佳,例如,AI玩家每分鐘進(jìn)行的點(diǎn)擊次數(shù)被限制。不過,與人類玩家不同的是,它能夠一次查看整個(gè)地圖,而不是手動(dòng)導(dǎo)航。
DeepMind公司的研究人員說,AI玩家實(shí)際上并未獲得真正的優(yōu)勢(shì),因?yàn)樗谌魏螘r(shí)候只專注于地圖的一個(gè)部分。但是,正如游戲過程所顯示,這并沒有阻止AlphaStar同時(shí)在三個(gè)不同的區(qū)域熟練地控制部隊(duì)。評(píng)論員表示,這對(duì)人類玩家來說是不可能的。值得注意的是,當(dāng)科明茨在直播的比賽中擊敗AlphaStar時(shí),AI正在使用一個(gè)受限的相機(jī)視圖模式。
另外需要指出的是,這次和人工智能玩家對(duì)決的對(duì)手雖然是職業(yè)玩家,但并不是世界冠軍水平。參加比賽的玩家TLO還必須完成星際爭(zhēng)霸II中他所不熟悉的比賽。
撇開這一討論不談,專家們說,這場(chǎng)比賽是人工智能向前邁出的重要一步。長(zhǎng)期參與“星際爭(zhēng)霸”人工智能場(chǎng)景研究的研究員戴夫·丘吉爾告訴英國(guó)“衛(wèi)報(bào)”:“我認(rèn)為人工智能游戲軟件實(shí)體所表現(xiàn)出的能力是一項(xiàng)重大成就,至少比我在人工智能研究人員中聽到的最樂觀的猜測(cè)早一年。”
然而,丘吉爾也補(bǔ)充說,由于DeepMind還沒有發(fā)布任何有關(guān)這項(xiàng)工作的研究論文,因此很難判斷出AlphaStar是否獲得了任何技術(shù)上的飛躍。丘吉爾說:“我還沒有讀過這篇博客文章,也沒有看到任何文件或技術(shù)細(xì)節(jié)來做出一個(gè)判斷。”
佐治亞理工學(xué)院人工智能副教授馬克·里德爾(Mark Riedl)說,他對(duì)游戲比賽結(jié)果并不感到驚訝,人工智能擊敗人類玩家只是“一個(gè)時(shí)間問題”。
里德爾補(bǔ)充說,他并不認(rèn)為這場(chǎng)比賽表明星際爭(zhēng)霸II確實(shí)被人工智能玩家所征服。他表示,在過去直播的游戲中,AlphaStar被限制在窗口中,這消除了人工智能的一些優(yōu)勢(shì),“但我們看到的更大問題…是人工智能所學(xué)到的策略是脆弱的,當(dāng)一個(gè)職業(yè)玩家把人工智玩家逼出舒適區(qū)時(shí),人工智能就會(huì)崩潰。”
實(shí)際上,讓人工智能玩家在電子游戲中擊敗人類,其最終目的是提高人工智能的訓(xùn)練方法,特別是創(chuàng)造出能夠在類似星際爭(zhēng)霸這樣復(fù)雜的虛擬環(huán)境中運(yùn)行的人工智能系統(tǒng)。
為了訓(xùn)練AlphaStar,DeepMind公司的研究人員使用了一種稱為強(qiáng)化學(xué)習(xí)的方法。AI軟件實(shí)體為了達(dá)到某些目標(biāo)(如獲勝或僅僅是活著),基本上是通過反復(fù)試驗(yàn)來玩這個(gè)游戲的。他們首先通過模仿人類玩家來學(xué)習(xí),然后在游戲競(jìng)技比賽中互相學(xué)習(xí)。在不同的AI軟件實(shí)體中,強(qiáng)者生存,弱者被拋棄。DeepMind估計(jì),它的每一個(gè)AlphaStar軟件實(shí)體都以這種方式積累了大約200年的游戲時(shí)間,隨著游戲積累,它們玩游戲的速度也越來越快。
DeepMind清楚地知曉其開展這項(xiàng)工作的目標(biāo)。“最重要的是,DeepMind的任務(wù)是構(gòu)建一種通用的人工智能系統(tǒng)。”AlphaStar項(xiàng)目的負(fù)責(zé)人奧里爾·維尼亞爾斯(Oriol Vinyals)說,他指的是建立一個(gè)能執(zhí)行人類所能完成的任何心理任務(wù)的人工智能軟件實(shí)體。“要做到這一點(diǎn),重要的是要對(duì)我們的人工智能軟件實(shí)體在各種任務(wù)中的表現(xiàn)進(jìn)行測(cè)評(píng)對(duì)比。”