谷歌公司的DeepMind系統(tǒng)通過調(diào)整服務(wù)器的運(yùn)行方式以及控制電源和冷卻設(shè)備的操作,顯著提高了其數(shù)據(jù)中心的能源效率。通過DeepMin系統(tǒng)的幫助,谷歌公司可以將服務(wù)器的能耗降低約40%。如果谷歌公司在其全球所有的數(shù)據(jù)中心應(yīng)用這一技術(shù),那么每年可以節(jié)省數(shù)千萬美元的成本。
“我們開發(fā)的產(chǎn)品如此引人注目,以至于我們的挑戰(zhàn)更像是一個(gè)工程。我們到底能夠多快地將其推廣到全球各地的數(shù)據(jù)中心?”Sloss說。“如果用戶能節(jié)省這么多的電能,想要獲得這些收益,我們將繼續(xù)完善這個(gè)模式,并且繼續(xù)可能把更多的系統(tǒng)置于其關(guān)注的狀態(tài),因?yàn)槠涑醪降慕Y(jié)果是如此令人印象深刻。”
Sloss表示,不僅僅是谷歌公司正在呼吁將其數(shù)據(jù)中心運(yùn)營置于人工智能的管理之下,通過自我學(xué)習(xí)系統(tǒng)所取得的成果對人工決策有著明顯改善,使用機(jī)器學(xué)習(xí)系統(tǒng)將迅速成為運(yùn)行大型數(shù)據(jù)中心時(shí)必不可少的措施。
他說:“這樣做的結(jié)果不僅僅是在幾年之后受益,就是與目前相比,其狀況水平要好得多。培訓(xùn)網(wǎng)絡(luò)是進(jìn)行一個(gè)基本的模擬過程控制,我猜測這將會變得更加普遍。”
也許更令人驚訝的是,DeepMind系統(tǒng)通過改變傳統(tǒng)邏輯來實(shí)現(xiàn)這些結(jié)果。盡管傳統(tǒng)的降低數(shù)據(jù)中心能耗的方法是盡可能少地運(yùn)行冷卻系統(tǒng),但人工智能則建議以更低的功率級別運(yùn)行所有系統(tǒng)。
谷歌公司首先透露,曾經(jīng)試圖在2014年將人工智能技術(shù)應(yīng)用于運(yùn)行數(shù)據(jù)中心,當(dāng)時(shí)已經(jīng)使用神經(jīng)網(wǎng)絡(luò)來挑選電力使用模式,并尋找降低電力功耗的機(jī)會。
DeepMind聯(lián)合創(chuàng)始人Demis Hassabis表示,谷歌公司自2014年以來就加強(qiáng)了對人工智能的使用,使用了DeepMind人工智能來對數(shù)據(jù)中心的運(yùn)行進(jìn)行建模,并調(diào)整了與其運(yùn)作相關(guān)的120個(gè)變量,以實(shí)現(xiàn)其能源效率達(dá)到最高水平。當(dāng)采用該模型的建議時(shí),數(shù)據(jù)中心的能源使用效率(PUE)有所改善,這一措施反映了數(shù)據(jù)中心設(shè)施能夠?yàn)榉?wù)器供電使用多少電能,而不是驅(qū)動相關(guān)的基礎(chǔ)設(shè)施來處理冷卻設(shè)備和功率分配。
調(diào)研機(jī)構(gòu)451 Research數(shù)據(jù)中心和關(guān)鍵基礎(chǔ)設(shè)施研究副總裁Andy Lawrence認(rèn)為,谷歌公司使用人工智能來幫助運(yùn)行數(shù)據(jù)中心的實(shí)驗(yàn)最終將成為主流。
“谷歌公司使用DeepMind來減少其數(shù)據(jù)中心的PUE值是人工智能/機(jī)器學(xué)習(xí)的一個(gè)有趣的應(yīng)用,并且清楚地指出了最終將實(shí)現(xiàn)什么。”他說,“其長期趨勢是使用軟件工具自動或自主管理數(shù)據(jù)中心。”
不過,他表示,谷歌公司目前的數(shù)據(jù)中心的效率已經(jīng)非常高,而目前只能將數(shù)據(jù)中心的電源效率從86%提高到88%。
“即使如此,谷歌公司在全球范圍內(nèi)的數(shù)據(jù)中心也將節(jié)省很大的成本,因?yàn)槊磕晔褂贸^500萬千瓦時(shí)的電力。”他補(bǔ)充說,這種方法對于規(guī)模龐大的科技公司來說可能是有意義的,但需要大規(guī)模的投資。
“即使是谷歌公司,其面臨的一個(gè)挑戰(zhàn)是需要大量的傳感器,而且這些傳感器的部署成本可能會非常昂貴。”他說。
Lawrence表示,Vigilent公司采用基于機(jī)器學(xué)習(xí)的算法方法來優(yōu)化客戶的冷卻服務(wù),而且長期來看,希望看到“基于人工智能的效率服務(wù)作為服務(wù)提供給數(shù)據(jù)中心”。
谷歌公司開啟和關(guān)閉機(jī)器學(xué)習(xí)建議時(shí)的數(shù)據(jù)中心功耗的差異
Lawrence 表示,“我對我們能夠做的事情感到興奮。”也許DeepMind的機(jī)器學(xué)習(xí)系統(tǒng)最有效的演示就是DeepMind AlphaGo,這個(gè)人工智能技術(shù)最近在與人類的圍棋比賽中獲得勝利,這個(gè)古老的中國游戲的復(fù)雜性讓計(jì)算機(jī)專家為之努力了幾十年。圍棋的每回合約有200種可能進(jìn)行的動作,而國際象棋約為20種。在圍棋游戲的過程中,計(jì)算機(jī)通過提前搜索圍棋回合中的每一個(gè)動作,以確定最佳游戲步驟,這在計(jì)算的角度來說有些復(fù)雜昂貴。相反,AlphaGo已經(jīng)將3000萬次的圍棋比賽的人類行為訓(xùn)練深入學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)來玩游戲。
培訓(xùn)這些深入學(xué)習(xí)網(wǎng)絡(luò)可能需要很長時(shí)間,因?yàn)橄到y(tǒng)逐漸優(yōu)化模型才能獲得最大的效果,因此需要大量的數(shù)據(jù)被攝取和迭代。
為了簡化培訓(xùn)過程,谷歌公司開發(fā)了自己的專用芯片,稱為張量處理單元(TPU),可以通過谷歌公司的TensorFlow軟件庫來加快實(shí)現(xiàn)機(jī)器學(xué)習(xí)模式的速度。這些芯片不僅僅用于培訓(xùn)DeepMind和Google Brain的模型,還包括支持Google翻譯和Google Photo中圖像識別的模型,以及允許公眾使用Google TensorFlow研究云構(gòu)建機(jī)器學(xué)習(xí)模型的服務(wù)。這些芯片的第二代產(chǎn)品已在今年5月的Google I/O會議上亮相,隨著這些新型TPU提供的一系列功能,訓(xùn)練一個(gè)用于翻譯的Google機(jī)器學(xué)習(xí)模型可以節(jié)省一半的時(shí)間。
Sloss說:“TPU比目前可用的技術(shù)具有巨大的性能優(yōu)勢。在這個(gè)時(shí)候,所有正在致力研究機(jī)器學(xué)習(xí)的廠商都是在人機(jī)大賽表演之后追逐的,這會帶來一個(gè)很大的競爭優(yōu)勢,因?yàn)榭梢栽谀撤N程度上模仿一些有用的東西。”
在谷歌公司數(shù)據(jù)中心未來對TPU的推出沒有作出堅(jiān)定承諾的同時(shí),他表示:“我懷疑能否將繼續(xù)使TPU得到更廣泛地使用”。
即使作為谷歌公司的內(nèi)部人士,Sloss也承認(rèn),機(jī)器學(xué)習(xí)能力在能夠并行處理大量數(shù)據(jù)的處理器背后推動的速度,以及龐大的培訓(xùn)數(shù)據(jù)集的可用性令人吃驚。
他表示:“在過去的幾年里,機(jī)器學(xué)習(xí)的整體能力還在不斷提高。我是一名棋手,如果有人三年前告訴過我,2017年世界圍棋冠軍將是一臺電腦,我當(dāng)時(shí)不會這么確定。而在三年之后,我們實(shí)現(xiàn)了這個(gè)目標(biāo)。我很期待機(jī)器學(xué)習(xí)能在接下來的五年里為世界做些什么。”