互聯(lián)網(wǎng)的飛速發(fā)展拉動了對大規(guī)模數(shù)據(jù)中心的胃口,同時(shí)也帶來能耗的巨幅上升,目前數(shù)據(jù)中心的能耗已經(jīng)超過了全球能源使用量的1.3%。Google的數(shù)據(jù)中心以高能效著稱,通過創(chuàng)新的市電直供、熱空氣隔離、水側(cè)節(jié)能等技術(shù)和大量的運(yùn)營優(yōu)化,PUE達(dá)到了令人稱奇的1.12領(lǐng)先水平。
“壓榨PUE不停歇”但是他們“貪心不足”,在新加坡舉辦的Datacenter Dynamics 2014會議上,Google數(shù)據(jù)中心副總裁Joe Kava和天才小子Jim Gao介紹了Google是如何利用機(jī)器學(xué)習(xí)和人工智能進(jìn)一步改進(jìn)數(shù)據(jù)中心,以期將能效降到1.1以下的。
▲圖1 數(shù)據(jù)中心可以更為節(jié)能
業(yè)界一般用 PUE(電能使用效率)來衡量數(shù)據(jù)中心的能效,PUE=數(shù)據(jù)中心總設(shè)備能耗/IT設(shè)備能耗,其典型值為2,越接近1表明能效越高。圖2中,一個典型的Google數(shù)據(jù)中心在投產(chǎn)初期的PUE約為1.25,Google通過持續(xù)的運(yùn)營優(yōu)化將PUE降低到了1.12。
但即便優(yōu)秀如Google,要想進(jìn)一步降低PUE值也變得步履維艱。因?yàn)榈搅四骋浑A段,制冷和電氣系統(tǒng)之間的相互作用和各種復(fù)雜反饋回路,使得我們使用傳統(tǒng)的工程公式難以準(zhǔn)確推導(dǎo)數(shù)據(jù)中心的效率。
比如冷通道溫度的較小提升都會導(dǎo)致制冷系統(tǒng)的很多變化,如冷機(jī)、冷卻塔、換熱器、水泵等的功耗都將增減不定,且非線性變化,其結(jié)果很可能是冷通道溫度提升而總功耗增加。
▲ Google數(shù)據(jù)中心的PUE進(jìn)一步優(yōu)化碰到瓶頸
面臨瓶頸,Google 決定利用機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)算法讓其數(shù)據(jù)中心能效更上一層樓。
神經(jīng)網(wǎng)絡(luò)是一類機(jī)器學(xué)習(xí)算法,它模擬神經(jīng)元之間相互作用的認(rèn)知行為。
機(jī)器學(xué)習(xí)的這個分支常見的應(yīng)用包括語音識別,圖象處理,和自主軟件代理等。機(jī)器學(xué)習(xí)方法利用現(xiàn)有的大量傳感器數(shù)據(jù)來建立一個數(shù)學(xué)模型,理解操作參數(shù)之間的關(guān)系從而提升整體學(xué)習(xí)效率,如圖3語音識別。
▲圖3 機(jī)器學(xué)習(xí)在語音識別中的應(yīng)用
據(jù) Kava 介紹,該項(xiàng)目僅為Google的20%業(yè)余時(shí)間創(chuàng)新項(xiàng)目。他們不斷跟蹤 IT 設(shè)備能耗、室外氣溫以及制冷等機(jī)電設(shè)備的設(shè)置情況,每30秒就計(jì)算一次 PUE。
Google的BMS、PMS以及控制系統(tǒng)每天產(chǎn)生數(shù)以億計(jì)的原始運(yùn)行數(shù)據(jù),雖然人類難以理解,但機(jī)器卻擅長于挖掘。
Google數(shù)據(jù)中心團(tuán)隊(duì)的Jim Gao洞察到了這一點(diǎn),于是他回歸本源,獲取數(shù)據(jù)并通過機(jī)器學(xué)習(xí)對這些數(shù)據(jù)進(jìn)行研究,建立模型以預(yù)測并改善數(shù)據(jù)中心的能效情況。
結(jié)果表明,該模型的預(yù)測準(zhǔn)確率高達(dá) 99.6%。極高的準(zhǔn)確率意味著Google對數(shù)據(jù)中心下一步的能量需求情況了如指掌,并可通過調(diào)整參數(shù)設(shè)置進(jìn)一步提升能效。
Kava 舉例稱,幾個月前,他們有幾臺服務(wù)器要下線幾天,其結(jié)果是數(shù)據(jù)中心能效會有所降低。但利用Jim Gao的模型他們臨時(shí)調(diào)整了制冷參數(shù),通過與歷史數(shù)據(jù)的結(jié)合進(jìn)行PUE仿真,該團(tuán)隊(duì)選定了一套新的運(yùn)營參數(shù),從而將 PUE 再降低了0.02。
▲圖4 谷歌某個數(shù)據(jù)中心在夏天一個月內(nèi)的實(shí)際PUE值(黃線)和預(yù)測值(黑線)
這個0.02可不容小覷,乘上Google上百萬臺服務(wù)器量,0.02也有可觀的節(jié)能效果。值得一提的是,該案例中PUE值大于1.14只因缺乏實(shí)際運(yùn)行數(shù)據(jù)支持,否則其PUE模型的精度值預(yù)計(jì)隨時(shí)間會進(jìn)一步增加。
Jim Gao 在隨后發(fā)布的白皮書上解釋說:
采用神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)方法對復(fù)雜系統(tǒng)建模具有優(yōu)勢,因?yàn)樯窠?jīng)網(wǎng)絡(luò)不需要用戶預(yù)設(shè)模型的交互特征,而是讓數(shù)據(jù)自行尋找模式和交互,然后自動生成最佳匹配模型。
如圖5,該神經(jīng)網(wǎng)絡(luò)研究的要素包括了服務(wù)器總負(fù)載、水泵、冷卻塔、冷水機(jī)組、干式冷卻器、濕球溫度、戶外濕度、風(fēng)速、風(fēng)向等多達(dá)19個變量。Google利用傳感器部署了幾萬個數(shù)據(jù)點(diǎn)來收集這些基礎(chǔ)設(shè)施運(yùn)行數(shù)據(jù)和電能使用信息。不過,Google只用一臺服務(wù)器就能跑整個神經(jīng)網(wǎng)絡(luò)系統(tǒng)了。
▲圖5 典型數(shù)據(jù)中心建模涉及到的各種變量
準(zhǔn)確又健壯的PUE機(jī)器學(xué)習(xí)模型將使數(shù)據(jù)中心運(yùn)營方和業(yè)主受益匪淺。
例如,對于給定充足條件的數(shù)據(jù)中心,其實(shí)際性能與預(yù)測性能的比較數(shù)據(jù),可用于自動運(yùn)行報(bào)警、運(yùn)行效益指標(biāo)設(shè)定和故障排除等。
一個強(qiáng)大的效率模型還使數(shù)據(jù)中心運(yùn)營商方便評估數(shù)據(jù)中心變量參數(shù)的PUE敏感性。
例如圖6中,利用谷歌某個數(shù)據(jù)中心冷通道溫度(CAT)和PUE之間關(guān)系模擬,可推導(dǎo)出通過增加3華氏度的冷卻塔出水溫度(LWT),理論上有望降低0.5%的總PUE。這種PUE值降低的模擬分析,在實(shí)際測試優(yōu)化中得以驗(yàn)證。這種影響參量確定和PUE降低的幅度敏感度分析,可以顯著降低試驗(yàn)成本、減少碳排放。
Jim Gao 在白皮書中聲明,Google 數(shù)據(jù)中心的實(shí)際測試表明:
機(jī)器學(xué)習(xí)是利用傳感器數(shù)據(jù)對數(shù)據(jù)中心能效建模的不二法門。
不過目前國內(nèi)粗放式管理的數(shù)據(jù)中心短時(shí)間內(nèi)恐怕難以效仿。
▲圖6 機(jī)器學(xué)習(xí)方法用于數(shù)據(jù)中心能效建模
基于現(xiàn)代數(shù)據(jù)中心的復(fù)雜性,以及多個控制系統(tǒng)之間的相互作用。目前,數(shù)據(jù)中心運(yùn)營方很難預(yù)測改變配置參數(shù)將會帶來的影響。機(jī)器學(xué)習(xí)方法可以利用現(xiàn)有的傳感器數(shù)據(jù),來開發(fā)能夠理解運(yùn)行參數(shù)和整體能源效率之間關(guān)系的數(shù)學(xué)模型。
準(zhǔn)確的數(shù)據(jù)中心效率模型可以讓數(shù)據(jù)中心運(yùn)營商無需現(xiàn)場調(diào)試就能夠優(yōu)化運(yùn)行配置。
這樣,數(shù)據(jù)中心運(yùn)營方利用數(shù)據(jù)中心虛擬化仿真得到了最優(yōu)模型參數(shù),便可減少冷站參數(shù)變化帶來的不可控風(fēng)險(xiǎn)。(未完待續(xù))
▲圖7 虛擬數(shù)據(jù)中心建??捎糜诜抡娣治鰷p少現(xiàn)場試驗(yàn)不確定性