作者注:該故事基于真實(shí)事件。每個細(xì)節(jié)都來自我的學(xué)生和我獲得的一手事實(shí)。
凌晨三點(diǎn),我的手機(jī)收到一封告警。自從我們安裝了新的數(shù)據(jù)中心基礎(chǔ)設(shè)施管理系統(tǒng)后,每晚我都能收到十倍以上的告警,但都不是很嚴(yán)重的問題。但這次不同,我們主數(shù)據(jù)中心的溫度雖然都在ASHRAE的允許溫度范圍內(nèi)——但高于公司運(yùn)營限制,而且還在不斷上升。
財(cái)務(wù)部門在有人確定既定標(biāo)準(zhǔn)與設(shè)計(jì)之前就決定了我們新數(shù)據(jù)中心的預(yù)算,我們不得不經(jīng)常削減其中的災(zāi)難恢復(fù)策略。我曾堅(jiān)持要求額外的空調(diào)以及模塊化的不間斷電源系統(tǒng)(UPS)冗余。除了這些,設(shè)計(jì)師認(rèn)定我們在Uptime Tier III級別標(biāo)準(zhǔn),但我們也沒有理由去花錢來獲得認(rèn)證。
我通知了保安。他們也收到了相同的告警,但沒有一個人能夠定位問題。在叫醒了設(shè)施經(jīng)理,他表示會安排人員到場后,我穿好衣服并前往設(shè)施。
壓力與無力感
一小時后,我走進(jìn)那個感覺像沙哈拉沙漠的數(shù)據(jù)中心。燈光到處閃爍,服務(wù)器所有的風(fēng)扇全速運(yùn)轉(zhuǎn),我們10臺空調(diào)有2臺出現(xiàn)了故障。一些服務(wù)器已經(jīng)自動關(guān)機(jī)了。我突然意識到本該落實(shí)到位的災(zāi)難恢復(fù)策略已經(jīng)開始崩潰。
數(shù)據(jù)中心基礎(chǔ)設(shè)施管理顯示的內(nèi)容令人困擾,而且圖形用戶界面并沒有任何意義,用戶登陸后的首菜單后,沒有看到問題。一大串?dāng)?shù)據(jù)顯示溫度已經(jīng)持續(xù)升高了數(shù)小時。為什么我沒有更早得到告警?我發(fā)現(xiàn)一張看起來像天書的電氣圖,但我知道這個可能是UPS系統(tǒng)。我知道從那里可以找到我們服務(wù)器機(jī)柜的面板,但并不知道具體的控制機(jī)制。墻上還有一些電器面板,但標(biāo)簽沒有任何意義。“LBTA-3”可能是任何東西,而且面板門被鎖住了。
設(shè)施與IT不匹配,數(shù)據(jù)中心就崩潰了——特別是在緊急情況下。解決沖突的一種方案是讓某個IT團(tuán)隊(duì)成員也對設(shè)施管理負(fù)責(zé)。另一種方法是簡化兩部門之間的溝通。
設(shè)施工作人員趕到現(xiàn)場后,他證實(shí)了我已知道的事實(shí):沒有足夠能源來支持我們所有設(shè)備。他檢查了所能找到的斷路器,沒有發(fā)現(xiàn)任何錯誤,但在沒有電工的情況下我們無法進(jìn)一步排查。這時候只好繼續(xù)打電話給設(shè)施經(jīng)理,接著等電工到達(dá)。
一臺接一臺,我關(guān)閉了服務(wù)器,避免災(zāi)難性崩潰發(fā)生。不久電工到了,而且他知道電路板在哪里——那扇我們無法進(jìn)入,只有靠他的特殊鑰匙才能打開的門后面。他開啟了大門,里面很涼快。這間同樣是UPS室,而里面只有一臺空調(diào)在運(yùn)轉(zhuǎn)。單臺空調(diào)意味著我們的冗余UPS被安置在非冗余冷卻環(huán)境中。
事情升溫
在電工重置了跳閘的主斷路器后,空調(diào)開始恢復(fù)運(yùn)作——但好景不長?;鹈鐝碾娤涿姘宓男×芽p處冒出。我們的吸氣式煙霧探測系統(tǒng)如果及時通知我們事情嚴(yán)重了,我們就能在主消防系統(tǒng)釋放滅火氣體之前解決問題。煙霧迅速彌漫整個數(shù)據(jù)中心,伴隨著震耳欲聾的告警聲。但在沒有任何預(yù)警的情況下,主系統(tǒng)已經(jīng)開始?xì)怏w釋放倒計(jì)時。由于數(shù)據(jù)中心內(nèi)沒有著火,我按下了重載按鈕,但只有倒計(jì)時被重置了。消防員出現(xiàn)在門口。只有空調(diào)電源出現(xiàn)問題,不是UPS或服務(wù)器電源,但他們立刻到達(dá)了大紅色的EPO(緊急電源關(guān)閉)按鈕處。我朝他們大喊,但他們還是按下去了。幾秒鐘后,滅火氣體釋放了。電工趕往地下室切斷機(jī)房的主供電,而消防員正在往燃燒的配電箱中澆灌泡沫。
在DR站點(diǎn)遭到冷遇
當(dāng)外海辦事處同事通過越洋電話詢問我發(fā)生了何事,為什么他們無法訪問公司電話時,我向他們保證,根據(jù)我們的災(zāi)難恢復(fù)策略,需求會被轉(zhuǎn)發(fā)到災(zāi)難恢復(fù)站點(diǎn)。然而,雖然我們已經(jīng)簽約了站點(diǎn),但我們實(shí)際并沒有進(jìn)行任何傳輸操作,就是我們還沒有轉(zhuǎn)移IT基礎(chǔ)設(shè)施——無論是物理的還是虛擬的——到DR站點(diǎn)。當(dāng)我打電話給DR供應(yīng)商宣布緊急狀況時,他們告訴我站點(diǎn)沒有熱維護(hù),也無法隨時上線。我們一直都在做日常數(shù)據(jù)備份到災(zāi)難恢復(fù)中心,但需要時間讓我們進(jìn)行用戶轉(zhuǎn)移操作。而且我們需要自己的員工到場才能進(jìn)行。
當(dāng)數(shù)據(jù)中心災(zāi)難發(fā)生,必須與組織的其余部門進(jìn)行通信。通過創(chuàng)建通信樹計(jì)劃來避免混亂,也可以通過自動通知系統(tǒng)來告知數(shù)據(jù)中心災(zāi)難。
在電氣室,火已經(jīng)撲滅,電源被關(guān)閉,我們需要靠應(yīng)急燈照明才能工作。電工在移除交換板的面板后,發(fā)現(xiàn)總線已經(jīng)燒毀,把備用總線也燒毀了。我知道現(xiàn)在唯一的選擇就是讓IT服務(wù)在DR站點(diǎn)恢復(fù)運(yùn)轉(zhuǎn),并重新評估我們的災(zāi)難恢復(fù)計(jì)劃。
研究表明,75%的數(shù)據(jù)中心故障是人為錯誤,這意味著我們可以從他人的經(jīng)驗(yàn)中學(xué)習(xí),包括上述事件。