“因?yàn)檫\(yùn)用了一種領(lǐng)先而復(fù)雜的水冷系統(tǒng),‘神威藍(lán)光’超算中心在國內(nèi)外的超算中心群體中算是最省電的。但我們研發(fā)了一項(xiàng)國家專利獎(jiǎng)技術(shù),在此基礎(chǔ)上再降耗12%,由此完成一項(xiàng)世界紀(jì)錄。”2月22日,一見科技日?qǐng)?bào)記者,山東省計(jì)算中心(國家超算濟(jì)南中心)黨委書記、副主任譚安輝便忙不迭的展示他們的“神奇”技術(shù)。
譚安輝和同事們運(yùn)用無線傳感器采集“神威藍(lán)光”機(jī)柜內(nèi)外的溫度、濕度、風(fēng)速等情況,將收集的數(shù)據(jù)按照一套復(fù)雜的算法計(jì)算出機(jī)柜內(nèi)外每個(gè)布點(diǎn)既能省電,又最舒適的“最佳溫度”,然后自動(dòng)遠(yuǎn)程調(diào)節(jié)系統(tǒng)并消除局部熱點(diǎn),從而實(shí)現(xiàn)了最省電指標(biāo)。
作為千萬億次超級(jí)計(jì)算機(jī),能耗、能效是核心指標(biāo)。相對(duì)于其他超算中心用風(fēng)扇降溫的風(fēng)冷模式,水冷系統(tǒng)本身的功耗要降低40%。譚安輝說,通常,一臺(tái)千萬億次級(jí)超級(jí)計(jì)算機(jī)每年大約要消耗一個(gè)中型核電站的發(fā)電量,比如美國最快的超級(jí)計(jì)算機(jī)“美洲豹”約為7兆瓦,我國的“天河一號(hào)”也接近4兆瓦。但“神威藍(lán)光”功耗極低,只有1兆瓦(100萬瓦),如果按照時(shí)下的電價(jià),大概需要每天6萬元電費(fèi)。
世界超級(jí)計(jì)算機(jī)TOP500項(xiàng)目領(lǐng)導(dǎo)者、美國田納西大學(xué)計(jì)算機(jī)科學(xué)家杰克·唐加拉曾表示,相對(duì)風(fēng)冷,“神威藍(lán)光”展示了一種復(fù)雜的水冷系統(tǒng),它讓濟(jì)南的冷冽、純凈泉水在主板之間封閉循環(huán)流動(dòng),實(shí)現(xiàn)CPU、內(nèi)存、元器件的冷卻并帶走熱量,幾乎不損耗水且無噪音,先進(jìn)環(huán)保,“就像三明治夾心,水冷板被緊緊地夾在兩塊CPU板中間,無縫同步散熱,所以盡管CPU高速運(yùn)行,卻聽不見風(fēng)扇的噪音。”他認(rèn)為這是超級(jí)計(jì)算機(jī)設(shè)計(jì)上的一項(xiàng)重大進(jìn)步。
剛剛獲得2016年中國專利獎(jiǎng)優(yōu)秀獎(jiǎng)的這項(xiàng)技術(shù)學(xué)術(shù)名是“基于物聯(lián)網(wǎng)技術(shù)的數(shù)據(jù)中心動(dòng)力環(huán)境監(jiān)測系統(tǒng)所采用的方法”,濟(jì)南超算中心智能感知與控制創(chuàng)新團(tuán)隊(duì)負(fù)責(zé)人吳曉明博士告訴科技日?qǐng)?bào)記者,該技術(shù)采用超低功耗的無線數(shù)據(jù)采集技術(shù)、三維建模及虛擬仿真技術(shù)、智能分析技術(shù),針對(duì)機(jī)房內(nèi)哪些地方有熱點(diǎn),哪些地方出現(xiàn)功耗特別大的地方,該技術(shù)自動(dòng)采集信息并分析,乃至給出最佳解決方案,從而消除局部熱點(diǎn),實(shí)現(xiàn)超算中心安全穩(wěn)定和節(jié)能。
實(shí)際上,電力成本幾乎是全世界各大超算中心和數(shù)據(jù)中心最大的運(yùn)營支出項(xiàng)目。僅2015年,谷歌母公司Alphabet就消耗了5.2太瓦時(shí)的電力,幾乎與整個(gè)舊金山市持平。為此谷歌表示,2017年,包括所有13個(gè)數(shù)據(jù)中心及其所有的辦公室在內(nèi),其全球運(yùn)營網(wǎng)絡(luò)的供電將完全基于可再生能源。但諸如風(fēng)能、太陽能等可再生能源同樣面臨巨額投入問題。
降低耗電量只是該技術(shù)的“殺手锏”之一。當(dāng)前,國內(nèi)各個(gè)企業(yè)單位的數(shù)據(jù)中心面臨著一個(gè)相同的難題:支撐數(shù)據(jù)中心的是后臺(tái)龐大的服務(wù)器,但是大量數(shù)據(jù)的處理,往往會(huì)導(dǎo)致局部溫度非常高,服務(wù)器有可能出現(xiàn)宕機(jī)現(xiàn)象,就像人“中暑”了一般。這就意味著系統(tǒng)無法從一個(gè)系統(tǒng)錯(cuò)誤中恢復(fù)過來,或系統(tǒng)硬件層面出問題,以致系統(tǒng)長時(shí)間無響應(yīng),而不得不重啟動(dòng)系統(tǒng),問題是大量的數(shù)據(jù)可能在重啟中丟失造成損失。對(duì)銀行、氣象、超算中心等敏感部門來說,這是不可承受之重。
“到2015年,全國的數(shù)據(jù)中心的年耗電量就遠(yuǎn)遠(yuǎn)超過三峽電站的年發(fā)電量。而我們的這項(xiàng)技術(shù)雖然源于超算中心的省電實(shí)踐,但已經(jīng)推廣到國內(nèi)部分省市的數(shù)據(jù)中心,第一解決耗電問題,第二解決宕機(jī)現(xiàn)象。”譚安輝說,這項(xiàng)技術(shù)已經(jīng)在國內(nèi)部分?jǐn)?shù)據(jù)中心推廣并產(chǎn)生4000萬的經(jīng)濟(jì)效益,幫助用戶節(jié)約了34587萬成本。