亞馬遜如何預(yù)防數(shù)據(jù)中心業(yè)務(wù)中斷

責任編輯:xfuesx

2017-04-25 14:24:31

摘自:中國綠色數(shù)據(jù)中心

摘要:像亞馬遜這樣的超大型數(shù)據(jù)中心運營商,在市場上已經(jīng)找不到適合他們自身用的數(shù)據(jù)中心,或者他們認為自己建設(shè)數(shù)據(jù)中心會比使用市場上的更為便宜的時候,他們會考慮自己建設(shè)數(shù)據(jù)中心。

摘要:像亞馬遜這樣的超大型數(shù)據(jù)中心運營商,在市場上已經(jīng)找不到適合他們自身用的數(shù)據(jù)中心,或者他們認為自己建設(shè)數(shù)據(jù)中心會比使用市場上的更為便宜的時候,他們會考慮自己建設(shè)數(shù)據(jù)中心。建設(shè)期間會將一項技術(shù)內(nèi)置在工程建設(shè)中,避免工程承包商描述為在電氣開關(guān)設(shè)備供應(yīng)商在對其產(chǎn)品設(shè)計中錯誤的定義優(yōu)先級而準備。

像亞馬遜這樣的超大型數(shù)據(jù)中心運營商,在市場上已經(jīng)找不到適合他們自身用的數(shù)據(jù)中心,或者他們認為自己建設(shè)數(shù)據(jù)中心會比使用市場上的更為便宜的時候,他們會考慮自己建設(shè)數(shù)據(jù)中心。建設(shè)期間會將一項技術(shù)內(nèi)置在工程建設(shè)中,避免工程承包商描述為在電氣開關(guān)設(shè)備供應(yīng)商在對其產(chǎn)品設(shè)計中錯誤的定義優(yōu)先級而準備。

正是這個問題導致去年夏天達美航空數(shù)據(jù)中心宕機,最終支付航空公司1.5億美元的損失,還有2013年在超級碗期間的臭名昭著的停電事件。 亞馬遜網(wǎng)絡(luò)服務(wù)副總裁兼工程師約翰·漢密爾頓(John Hamilton)在其職業(yè)生涯中,同樣遇到過這類問題。

他在個人博客的中寫道:“這種大規(guī)模數(shù)據(jù)中心運營中,我自己經(jīng)歷過過兩次。” 當這些失敗發(fā)生的時候,那時候,他并不清楚這種是由于這種原因?qū)е鹿收习l(fā)生,這是發(fā)生在在他加入亞馬遜之前,在微軟工作期間發(fā)生的。

漢密爾頓并沒有在他的博客文章中引用達美航空,但去年夏天只有一家主要的航空公司數(shù)據(jù)中心中斷,隨后航空公司后公布了賠償達到九位數(shù)。

亞馬遜處于這種考慮的設(shè)計避免這種停電的技術(shù)是固件,它決定了當數(shù)據(jù)中心電源中斷時電氣開關(guān)應(yīng)該做什么。漢密爾頓說,典型的供應(yīng)商固件優(yōu)先考慮防止損壞費用昂貴的備用發(fā)電機,從而避免完全的數(shù)據(jù)中心中斷。 亞馬遜(也許大多數(shù)其他大型數(shù)據(jù)中心運營商)都傾向于冒著失去100萬美元設(shè)備的風險,而不會去冒大面積停電宕機風險。

當公共設(shè)施停電(大多數(shù)時候都是這種情況)發(fā)生時,開關(guān)柜等待幾秒鐘,以防公用事業(yè)電力回來(也是最常見的情況),如果沒有,開關(guān)柜將會啟動發(fā)電機,而數(shù)據(jù)中心開始運行UPS系統(tǒng)存儲的能量。 一旦發(fā)電機穩(wěn)定下來,開關(guān)設(shè)備就成為IT系統(tǒng)的主要來源。

去年的達美航空數(shù)據(jù)中心停電歸因于開關(guān)柜“鎖定”在亞特蘭大航空公司的發(fā)電機。 這是大多數(shù)開關(guān)柜在數(shù)據(jù)中心輸入電力供電中感測到主要電壓異常時設(shè)計的。 發(fā)電機短路通常會導致發(fā)電機炸飛,因此開關(guān)柜通常將發(fā)電機開關(guān)處于鎖定狀態(tài),避免發(fā)生這類事故。

在大多數(shù)情況下,這個錯誤發(fā)生數(shù)據(jù)中心外部,因此這這類事故除了造成數(shù)據(jù)中心業(yè)務(wù)中斷之外,沒有其他英雄,Hamilton寫道。 (他目睹的兩件事是由于汽車撞倒了傳輸電纜導致公共電源中斷所造成的)。在極少數(shù)情況下,數(shù)據(jù)中心內(nèi)部短路,斷路器斷開,服務(wù)器切換到二次電源,或(如果配電系統(tǒng)中的故障較高或斷路器未能打開),發(fā)電機未鎖定時可能會損壞發(fā)電機。

“我寧愿投入低于100萬美元的風險,而不是保證負荷將下降。 他說:如果只有一個客戶可能會虧損1億美元,那么儲存發(fā)電機就不會像是正確的優(yōu)先事項。“

當亞馬遜工程師要求他們的開關(guān)柜供應(yīng)商從其固件中消除鎖定狀況真?zhèn)€固件時,是他們應(yīng)了解到取消后帶來的潛在的設(shè)備故障 – 但供應(yīng)商卻拒絕取消,亞馬遜只能自行生產(chǎn)固件。

漢密爾頓寫道:“我很幸運能夠在一個大規(guī)模的運營商公司工作,因為定制的緣故,我們早在幾年前就解決這種特定的故障模式。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號