數(shù)據(jù)中心一個被忽視的問題:功率的動態(tài)變化

責任編輯:王文龍

2013-07-29 10:03:41

摘自:移動新聞

從歷史數(shù)據(jù)來看,數(shù)據(jù)中心IT設(shè)備的總電力消耗與網(wǎng)絡(luò)機房的設(shè)備僅略有不同,這取決于計算負載或操作模式的不同。

從歷史數(shù)據(jù)來看,數(shù)據(jù)中心IT設(shè)備的總電力消耗與網(wǎng)絡(luò)機房的設(shè)備僅略有不同,這取決于計算負載或操作模式的不同。然而,隨著筆記本電腦的處理器被重新設(shè)計用以延長電池的使用時間,其可以使得筆記本電腦處理器的功耗在輕負載時降低90%,服務器處理器的設(shè)計也很快跟進。因此,新開發(fā)的具備了能源管理功能的服務器會因為負荷水平隨著時間的推移在功耗方面出現(xiàn)劇烈波動,這也就為數(shù)據(jù)中心和網(wǎng)絡(luò)空間的設(shè)計和管理帶來了各種新的問題。

一旦這些功率的動態(tài)變化可以忽略不計,那么,小型企業(yè)或企業(yè)服務器的總功率將發(fā)生很大的變化。這些功耗的波動可能會導致在數(shù)據(jù)中心和網(wǎng)絡(luò)機房環(huán)境無法很好的進行規(guī)劃,和其他不良后果。這些問題包括:斷路器跳閘、過熱損耗、造成冗余,為數(shù)據(jù)中心和網(wǎng)絡(luò)機房的設(shè)計和運營創(chuàng)造了全新的挑戰(zhàn)。

此外,云計算和虛擬化技術(shù)的日益普及,大大增加了規(guī)模計算的運用和擴展能力,同時,也大大增加了物理基礎(chǔ)設(shè)施的風險問題。在虛擬環(huán)境中,虛擬機突如其來的創(chuàng)建和移動需要非常仔細的管理政策,這種政策必須充分考慮物理基礎(chǔ)設(shè)施的現(xiàn)狀和容量下降到一個單獨機架級的情況。不這樣做的話,可能會破壞軟件容錯。

數(shù)據(jù)中心虛擬化和動態(tài)功率的變化幅度

二十年前,服務器功率的變化主要是由處理器和內(nèi)存子系統(tǒng)中的計算負載所決定的。通常,顯著功率波動只是由磁盤驅(qū)動器上旋和風扇造成的。而現(xiàn)如今,典型的功率變化大約為5%左右。然而,在更現(xiàn)代化的處理設(shè)備中,新技術(shù)可以幫助實現(xiàn)低功耗狀態(tài),如改變時鐘頻率、移動虛擬負荷、調(diào)節(jié)處理器電壓以便更好地匹配非空閑狀態(tài)已經(jīng)部署的工作量。根據(jù)服務器平臺的不同,功率的變化范圍可在45%到106%之間,跟二十年前相比可謂是大大的增加了。這種類型的動態(tài)功率變化將引起以下四種類型的問題。

1、分支電路超載

通常情況下,服務器操作在輕運算負載情況下時,實際功率會小于服務器潛在最大功耗能力。然而,由于許多數(shù)據(jù)中心和網(wǎng)絡(luò)管理人員沒有意識到電源使用的差異,他們往往安排比實際需要量更多的服務器到一個單一的分支電路。這反過來又造成了潛在的電路超載,分支電路額定功率可能會超過服務器的最大總功耗。雖然服務器能夠成功地在低負載時運行,但當服務器同時接受重載時,超載就會發(fā)生。分支電路超載所造成的最重要的危害是電路的跳閘,這將使得計算設(shè)備的電源關(guān)閉。在一般情況下,發(fā)生這些情況是非常糟糕的,因為它們往往發(fā)生在高負載期間,對于企業(yè)業(yè)務的連續(xù)性是極為不利的。

2、過熱

在數(shù)據(jù)中心或網(wǎng)絡(luò)機房,大多數(shù)被計算設(shè)備都是通過釋放熱量來消耗的電力的。功率的消耗的波動取決于負載的變化,其所釋放的熱量也就各不相同。因此,在功耗方面的突然波動可能會導致產(chǎn)熱的危險增加,產(chǎn)生熱斑。雖然數(shù)據(jù)中心配備了相關(guān)的冷卻系統(tǒng)以規(guī)范整體溫度,但這些冷卻系統(tǒng)可能不是被設(shè)計用來處理特定的功耗的增加所造成的局部熱點。當溫度升高時,可能會導致設(shè)備關(guān)閉或反常的行為。此外,即使設(shè)備功能保持正常,隨著時間的推移可能也會對設(shè)備產(chǎn)生不利影響。

熱點也可以發(fā)生在一個虛擬化的環(huán)境中,而在虛擬的環(huán)境中,更多的以分組方式安裝服務器,會造成局部高密度區(qū)域。由于虛擬機具備固有的顯著降低功耗的能力,這個問題可能會令人相當吃驚,分組或聚類這些高密度虛擬化服務器的行為可能會導致冷卻問題。

3、冗余損失

為了防止?jié)撛诘臄嚯娛鹿拾l(fā)生,許多服務器、數(shù)據(jù)中心和網(wǎng)絡(luò)機房采用雙冗余電源輸入,旨在將電力負荷平均分配到兩個路徑之間。當某一個路徑運行失敗時,相關(guān)的負載就立即進行轉(zhuǎn)移,造成雙負載以充分支持服務器。為了確保剩余的線路能夠接管完整的負載,如果有必要的話,主要交流支路輸送設(shè)備必須被加載到小于50%的載流量。然而,當負載的功耗發(fā)生變化時,這會變的很難。最初在安裝過程中設(shè)置為小于50%功耗的設(shè)備會隨著時間的推移開始在更高的負荷下運行。

如果開始操作時輸入在大于其評級50%的范圍,系統(tǒng)的冗余和保護功能被淘汰。在這種情況下,如果一條線路運行失敗,第二條線路也會超載,會造成斷路器跳閘和電源丟失,進而造成數(shù)據(jù)丟失或損壞。

4、問題只是被掩蓋了

由于設(shè)備的功耗的動態(tài)變化肯能僅僅只占到數(shù)據(jù)中心或網(wǎng)絡(luò)機房總功耗變化的一小部分,故而設(shè)備可能導致潛在的問題往往被忽視。例如,如果在一個給定的服務器環(huán)境中,功率變化為2:1,而設(shè)備的功率變換僅僅只占到5%,其余的設(shè)備維持了恒定功率,由此產(chǎn)生的大功率或電源分配單元(PDU)可能只相差2.5%。因此,操作人員可能會認為,根本就沒有動態(tài)功率消耗的問題,而事實上,它只是被掩蓋了而已。

管理動態(tài)功率變化的解決方案

為了緩解上述問題,數(shù)據(jù)中心和網(wǎng)絡(luò)機房運營商應該進一步充分的加深對于動態(tài)功耗潛在的危害了解。如下,是一些建議,可以幫助您的企業(yè)來減輕這些問題。

1、對為每臺服務器采用獨立的分支電路

因為每一臺服務器運行一個專用電路,獨立的分支電路提供給每臺服務器時就不可能出現(xiàn)超載和冗余丟失的情況。盡管其非常有效,但這種解決方案的造價則非常昂貴,而且部署小型服務器系統(tǒng)也非常復雜,因為每臺機架需要使用大量分支電路。例如,一個機架的雙路1U服務器可能需要多達84個獨立的電路分支,并利用兩個單獨的斷路器的配電板。當使用較大的服務器或刀片服務器時,這種技術(shù)更加實用。注意:這種類型的解決方案并不能減輕散熱的問題,如熱點。

2、建立最壞的情況下的安全標準,并在安裝或持續(xù)的基礎(chǔ)上測量合規(guī)性

大多數(shù)的數(shù)據(jù)中心和網(wǎng)絡(luò)空間運營商都有一套負載的標準,通常為典型的滿負荷分支電路額定功率的一小部分。大多數(shù)情況下,這些值下降幅度在60%和80%之間,當達到75%的值時,需要考慮功率容量,平衡合理的成本和可用性。為了驗證符合標準,必須測量實際的分支電路負載。然而,當系統(tǒng)表現(xiàn)出顯著不同的功率消耗時,采用這種方法會存在一些問題,因為這將使得難以準確測量并計算負荷。在理想的情況下,一個超重的計算負荷將被放置在被保護的設(shè)備中,并在最壞的情況下,測量以保證依從性。

此外,通過廣泛的庫存盤點哪些設(shè)備連接到每個分支電路,并測量潛在的最大負荷總和,可以幫助確保分支電路不會出現(xiàn)超載(各種設(shè)備的最大負載為設(shè)備制造商提供)。這種類型的庫存盤點在大型數(shù)據(jù)中心是司空見慣的,但對所有的設(shè)施都進行盤點是不實際的,因為它要求經(jīng)營者必須清楚的知道設(shè)備插入到每個分支電路的具體時刻。對于小型的數(shù)據(jù)中心和網(wǎng)絡(luò)機房,運營商可以更容易地防止設(shè)備出現(xiàn)意外,所以這種方法也是不必要的。

建立安全邊際標準,并利用不斷自動監(jiān)測系統(tǒng)對所有分支電路實施連續(xù)的監(jiān)測可以作為減輕動態(tài)功耗差異所造成的問題的第三種解決方案。在這種情況下,當分支加載開始進入安全區(qū)時,運營商會獲得相關(guān)的警報通知。例如,使用一個60%的分支加載標準時,當加載超過60%時就會發(fā)送警報。這個安全邊際標準的建立是為了就某些重要的狀況事先向運營商發(fā)出警告,讓他們在發(fā)生故障之前及時的采取糾正措施。這種方法還可以警告即將發(fā)生的冗余損失。該方法的具體的優(yōu)點是,它適用于用戶無需具備數(shù)據(jù)中心經(jīng)理一樣的專業(yè)知識、也能夠安裝、移動到不同的插座或插頭設(shè)備。這種類型的情況,通常發(fā)生在一個托管設(shè)施或介質(zhì)安全數(shù)據(jù)中心,在那里各種人員將訪問的設(shè)備。我們建議,該方法可與上述技術(shù)結(jié)合使用。

3、整合數(shù)據(jù)中心管理解決方案

為確保避免因功率變化引起的問題,另外一種方法是使用數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(DCIM)軟件,它可以監(jiān)控和報告的電力和冷卻系統(tǒng)的運行狀況是否良好,并跟蹤IT設(shè)備和數(shù)據(jù)中心或網(wǎng)絡(luò)物理基礎(chǔ)設(shè)施之間的各種關(guān)系。

DCIM安裝在一個給定的機架、電源路徑和冷卻系統(tǒng)上,可以提供對于物理和虛擬服務器的洞察。該軟件還可以幫助消除潛在的人為錯誤的風險、導致停機時間的原因、可以改變IT負責的形式而不占用相關(guān)地點的電源和冷卻的狀態(tài)。同時自動化監(jiān)控的DCIM信息(機架空間、電源和冷卻能力和狀況)并就相關(guān)的行動實施提出建議,大大降低了風險。

在IT負載的動態(tài)功率變化是一個日益重要的問題,一個能夠產(chǎn)生大量物理基礎(chǔ)設(shè)施問題,可以損害一個企業(yè)的整體連續(xù)性的大問題。為了減輕潛在的服務器宕機的風險,數(shù)據(jù)中心和網(wǎng)絡(luò)機房運營商應考慮上述建議,并采取步驟進行適當?shù)囊?guī)劃和監(jiān)控。

鏈接已復制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號