熱點(diǎn)問(wèn)題是計(jì)算機(jī)房空調(diào)的一大隱痛,使一些數(shù)據(jù)中心實(shí)施熱源冷卻以及能跨服務(wù)器重新分配工作負(fù)載的軟件工具。
一些IT團(tuán)隊(duì)將每平方英尺的機(jī)柜密度推向峰值效率,并為之建立冷卻結(jié)構(gòu)。其他的數(shù)據(jù)中心每個(gè)機(jī)柜甚至沒有達(dá)到高功率密度,但I(xiàn)T部門陷入了熱點(diǎn)問(wèn)題。
美國(guó)馬薩諸塞州綠色高性能計(jì)算中心MGHPCC關(guān)于計(jì)算的研究顯示,刀片服務(wù)器中包含PB內(nèi)存、高速中央處理單元(CPU)和GPU,都通過(guò)高速互聯(lián)網(wǎng)絡(luò)連到一起。
哈佛大學(xué)的調(diào)查員James Cuff 說(shuō):“我們運(yùn)行的系統(tǒng)不斷變熱,我們的目標(biāo)是100%的效能。”
MGHPCC的機(jī)柜設(shè)計(jì)成每個(gè)機(jī)架負(fù)載為標(biāo)準(zhǔn)14KW,每個(gè)機(jī)架平均約10KW。然而每個(gè)機(jī)架能夠輕松承受20-25KM,理論上達(dá)到100KW的密度是可能的。
“當(dāng)功率上升,液體冷卻無(wú)疑重新回到了數(shù)據(jù)中心,但是現(xiàn)在,空氣冷卻的性價(jià)比讓其更受歡迎。”
MGHPCC的IT技術(shù)領(lǐng)導(dǎo)James Culbert說(shuō):“MGHPCC使用熱通道遏制和行間冷卻,通過(guò)一個(gè)25到106華氏攝氏度的熱通道使服務(wù)器維持在81華氏攝氏度。”
計(jì)算流體動(dòng)力學(xué)模型軟件和服務(wù)供應(yīng)商Future Facilities公司的CEO Hassan Moezzi指出:“密集的機(jī)柜創(chuàng)造了復(fù)雜的空氣流類型,需要注意布局和嚴(yán)謹(jǐn)?shù)睦鋮s。一個(gè)數(shù)據(jù)中心就像是俄羅斯方塊。”
Hassan Moezzi說(shuō):“當(dāng)目標(biāo)是100%塞滿機(jī)架,事實(shí)上,設(shè)計(jì)者們都會(huì)制造孔洞和洞隙,物理破碎破壞了能量效率。”一個(gè)Future Facilities客戶端最終因?yàn)槌d45%的容量導(dǎo)致過(guò)熱的機(jī)架。
MGHPCC將機(jī)架進(jìn)行了安排,使布線不在熱量流動(dòng)的位置,但是由于高密度和混合使用的機(jī)架,他們?nèi)匀话才判虚g系統(tǒng)冷裝置冷卻熱點(diǎn)。其他的數(shù)據(jù)中心將冷卻設(shè)置在離熱源更近的地方。
MTS Systems公司IT服務(wù)經(jīng)理Greg Tupper 說(shuō)到:“機(jī)架冷卻可以節(jié)省很多的成本,有效地關(guān)閉交流電源,但是我們還沒有這么做。”
MTS淘汰了許多舊的服務(wù)器,所以他們需要重新部署機(jī)架以增加密集度。Tupper展望,在放置冷卻器之前每個(gè)機(jī)架至少有70%的空間是填滿的。機(jī)架冷卻供應(yīng)商提供了自頂向下或者rear-door模型,以及多種多樣的配置選項(xiàng)。Tupper建議研究你的機(jī)架是否與冷卻系統(tǒng)供應(yīng)商的產(chǎn)品兼容,并不是每一個(gè)機(jī)架都是相同的大小或者是相同的深度。
機(jī)架冷卻裝置是一個(gè)大型的一次性資本支出,需要相關(guān)的人力和設(shè)計(jì)成本。Tupper推薦在4-5家供應(yīng)商之間做成本對(duì)比,同時(shí)加入你的機(jī)架密度、存在的問(wèn)題和目標(biāo)等已確定的信息。
Tupper 說(shuō):“例如,我喜歡OptiCool提供的散熱器單元模塊化產(chǎn)品,在遇到失敗情況時(shí)該產(chǎn)品是多重路徑,但Subzero的自頂向下設(shè)計(jì)在我們當(dāng)前空間中的設(shè)置失效。” MGHPCC發(fā)現(xiàn)他們將最初的行間冷卻規(guī)格設(shè)置的有些過(guò)度了,能夠在每個(gè)安裝中拿走幾臺(tái)冷卻器而不會(huì)損失冷卻性能。
“這也是我們擔(dān)心的問(wèn)題,塞滿了機(jī)架或者過(guò)度投資。” Tupper說(shuō)。
然而,根據(jù)主機(jī)托管供應(yīng)商RagingWire 數(shù)據(jù)中心SVP兼CTO William Dougherty指出,高密度機(jī)柜沒有像我們期望的那樣快速發(fā)展。 多數(shù)托管用戶和供應(yīng)商為每個(gè)機(jī)架裝滿4-6KW的機(jī)柜,他說(shuō):“很少有用戶為一臺(tái)機(jī)柜分配10KW工作負(fù)載。”
Dougherty相信處理器能效的增加會(huì)使大多數(shù)的商業(yè)服務(wù)器和IT設(shè)備保持和先前版本一樣強(qiáng)大。
“用戶看不見更加密集的好處,所以增加密集度和應(yīng)對(duì)專門的冷卻條件是毫無(wú)意義的。” 他說(shuō)。
工作負(fù)載管理緩解熱點(diǎn)問(wèn)題 系統(tǒng)管理軟件供應(yīng)商TeamQuest 公司市場(chǎng)發(fā)展主管Dave Wagner指出,相反,數(shù)據(jù)中心IT員工可以通過(guò)重新分配工作負(fù)載來(lái)改善熱點(diǎn)問(wèn)題。
Wagner說(shuō)到:“在另一臺(tái)機(jī)架中也許有未充分利用的服務(wù)器可以接管熱機(jī)柜的工作負(fù)載。你需要知道哪里有剩余空間和哪里的芯片負(fù)擔(dān)過(guò)度。” 工作負(fù)載管理是“比構(gòu)建CRAC更加便宜,”Wagner說(shuō)。
典型企業(yè)的數(shù)據(jù)中心中有來(lái)自不同廠商的不同設(shè)計(jì)因素,可能每家廠商的產(chǎn)品也有不同版本,Wagner說(shuō),你必須建立熱量和電源之間的物理映射,同樣還有應(yīng)用資源消耗的工作負(fù)載分配的映射。數(shù)據(jù)中心基礎(chǔ)設(shè)施管理工具能夠管理這些方面,他說(shuō)。這些需要IT和設(shè)備團(tuán)隊(duì)去經(jīng)常查看映射。
畢竟,數(shù)據(jù)中心充滿了IT 設(shè)備,一個(gè)不變的操作是:改變。 Future Facilities公司Moezzi 說(shuō):“你認(rèn)為你已經(jīng)設(shè)計(jì)了最靈活的、只要智能電源在最大數(shù)量(例如兩百萬(wàn)瓦特)內(nèi),可以做任何你想做的事,但是每個(gè)改變都在侵蝕你的容量和電源。”
任何改裝或者是建立新的數(shù)據(jù)中心的人都應(yīng)該準(zhǔn)確地測(cè)量每個(gè)機(jī)柜的電能是否接近低能效,防止過(guò)度冷卻或者未利用的冷卻裝置運(yùn)行在上面。Wagner說(shuō),在高負(fù)載情況下,機(jī)柜也許承載了比標(biāo)準(zhǔn)負(fù)載情況多五倍的能源,所以你怎樣設(shè)計(jì)兩者?預(yù)留空間來(lái)轉(zhuǎn)移負(fù)載。
Dougherty說(shuō):“像PowerAssure的軟件定義電源的自動(dòng)化和流程編排層,可以使數(shù)據(jù)中心在經(jīng)營(yíng)需求的基礎(chǔ)上轉(zhuǎn)移工作負(fù)載,當(dāng)需求變化時(shí),重要的是將服務(wù)器移來(lái)移去需要保持可靠性和一致性,這種做法就電源使用、延遲和管理上而言都會(huì)獲得回報(bào)。”