論災(zāi)備之重要性:七場無法預(yù)見的數(shù)據(jù)中心災(zāi)難

責(zé)任編輯:editor004

作者:核子可樂譯

2015-06-12 10:57:09

摘自:51CTO

今天要談到的都稱得上是“隨機(jī)事件”,而數(shù)據(jù)中心運(yùn)維人員將會因它們的出現(xiàn)而徹夜無眠。這種威脅確實(shí)是真實(shí)存在的,倫敦的Lloyds網(wǎng)站甚至專門發(fā)布過一篇《太陽風(fēng)暴或?qū)⑼{北美電網(wǎng)》的風(fēng)險評估報告。

今天要談到的都稱得上是“隨機(jī)事件”,而數(shù)據(jù)中心運(yùn)維人員將會因它們的出現(xiàn)而徹夜無眠。在慨嘆之余,大家不妨捫心自問,您的災(zāi)難恢復(fù)方案是否足以應(yīng)對這些罕見的意外狀況?

論災(zāi)備之重要性:歷數(shù)七場幾乎無法預(yù)見的數(shù)據(jù)中心災(zāi)難

洪水、火災(zāi)、太陽耀斑以及四驅(qū)汽車造成的車禍:這一切都是數(shù)據(jù)中心運(yùn)維人員根本無法想象,但卻能夠切實(shí)帶來風(fēng)險的潛在災(zāi)難。接下來,我們將一同了解相關(guān)情況。

現(xiàn)任OpenStack基金會執(zhí)行董事的Jonathan Bryce二十多歲時曾是達(dá)拉斯沃思堡的Mosso Cloud公司的創(chuàng)始人。令他畢生難忘的是2009年12月18日這家公司所遭受的突發(fā)事件。

這次事故源自某位身患糖尿病的司機(jī)。他當(dāng)時在Rackspace數(shù)據(jù)中心——也就是Mosso業(yè)務(wù)托管所在位置——附近突然陷入昏迷,他的SUV就直接撞上了該數(shù)據(jù)中心的電力變壓設(shè)備。在車禍出現(xiàn)之后,Mosso的業(yè)務(wù)仍然能夠正常運(yùn)轉(zhuǎn),但這僅僅是接下來一連串最終導(dǎo)致服務(wù)停機(jī)的小機(jī)率事件的前奏。

我們要如何為這樣一種看似不可能發(fā)生的狀況作好災(zāi)難恢復(fù)規(guī)劃?“這僅僅是大家需要了解,且確實(shí)可能發(fā)生的故障根源的其中一種,”Bryce表示。

Robert von Woffradt身為愛荷華州州政府CIO也結(jié)合自身發(fā)表了看法,該州主要數(shù)據(jù)中心遭遇意外火災(zāi)后他在博客當(dāng)中談?wù)摿舜耸?。相?012年遭遇了由颶風(fēng)桑迪引發(fā)的洪水的下曼哈頓辦公樓群與各醫(yī)院也會對此表示認(rèn)同。

即使大家自認(rèn)為已經(jīng)針對地震、洪水與火災(zāi)作好了萬全的準(zhǔn)備,那么我們提醒一句——您有沒有考慮到偶爾出現(xiàn)的太陽耀斑?就在2012年,一次強(qiáng)大的太陽耀斑現(xiàn)象差一點(diǎn)就破壞了地球上的眾多電力傳輸系統(tǒng)。如果這次爆發(fā)的出現(xiàn)再早一周,地球?qū)⑹艿街苯佑绊?,科羅拉多州大學(xué)的Daniel Baker在2014年接受NASA科學(xué)新聞采訪時指出。耀斑的影響力將沖破地球大氣層,進(jìn)而導(dǎo)致意外之外的嚴(yán)重輸電線路電壓震蕩。

大家可能會認(rèn)為這樣的風(fēng)險離自己非常遙遠(yuǎn),但事實(shí)會給我們實(shí)實(shí)在在的教訓(xùn)。就在1859年,太陽耀斑的干擾在地球上引發(fā)了所謂“卡林頓事件”,電報局所部署的線路由于電壓瞬間增高而全面失控,一些辦公室甚至直接起火。

親身經(jīng)歷過災(zāi)難事態(tài)的CIO與數(shù)據(jù)中心管理者們紛紛指出,大家所能拿出的最佳應(yīng)對措施就是提前做好準(zhǔn)備。“至少每年對系統(tǒng)進(jìn)行一次全面崩潰測試。不要相信什么模擬結(jié)果,直接將其離線,”Wolffradt在愛荷華州政府遭遇火災(zāi)危機(jī)后所發(fā)表的一篇博客中建議道。

下面我們就一同來看實(shí)際發(fā)生過的各類數(shù)據(jù)中心災(zāi)難事故——其中一些非??膳?,另一些則有些匪夷所思——當(dāng)然,也歡迎大家在評論欄中分享您自己的災(zāi)難應(yīng)對故事。

  關(guān)注管線檢查工作

2009年7月3日西雅圖費(fèi)舍爾廣場的電氣室發(fā)生了火災(zāi),這直接導(dǎo)致Authorize.net支付門戶、微軟必應(yīng)旅游服務(wù)、Geocaching.com服務(wù)、Dotster域名注冊服務(wù)以及Web托管供應(yīng)商AdHost等數(shù)十個站點(diǎn)瞬間陷入癱瘓。直到第二天早晨,電力供應(yīng)才得以恢復(fù)。

根據(jù)《普吉特海灣商業(yè)雜志》的報道,Geocaching與AdHost兩個網(wǎng)站分別于次日上午10點(diǎn)重新上線,而其它各服務(wù)的恢復(fù)過程則更為漫長。此次火災(zāi)顯然始于傳輸線纜管線(如上圖所示),而據(jù)該雜志的估算,此次費(fèi)舍爾廣場用于維修及更換設(shè)備的成本大約為1000萬美元。

  颶風(fēng)桑迪引發(fā)發(fā)電機(jī)故障

與東海岸類似,2012年10月底肆虐一時的颶風(fēng)桑迪在陸續(xù)襲擊了弗吉尼亞州、特拉華州、馬里蘭州以及新澤西州后最終將矛頭指向了曼哈頓。伴隨著一波猛烈的海水潮涌之后,巨浪撲上紐約市頭并導(dǎo)致下曼哈頓地區(qū)的多家站點(diǎn)陷入癱瘓。

位于下曼哈頓75街區(qū)的Peer 1托管設(shè)施因此成為災(zāi)難恢復(fù)工作人員的噩夢。雖然該棟建筑物的十八層擺放有用于持續(xù)提供電力且不至于受到洪水影響的多臺備用發(fā)電機(jī),但風(fēng)暴來襲時直接灌滿了該建筑物的地下室,并且摧毀了應(yīng)急發(fā)電機(jī)的燃油泵送系統(tǒng)。一旦遭到海水浸泡,整套電路立刻失去了作用。(考慮到911事件,紐約地區(qū)要求各辦公樓管理方控制樓內(nèi)所儲存的燃油量)。因此,發(fā)電機(jī)只能依靠非常有限的一點(diǎn)燃料強(qiáng)行啟動,而工作人員根本沒辦法為其提供充足的補(bǔ)給。Peer 1建議客戶以數(shù)小時為周期實(shí)施系統(tǒng)關(guān)閉計劃,并排遣幾名員工到現(xiàn)場幫忙以防止出現(xiàn)數(shù)據(jù)丟失狀況。

為了避免系統(tǒng)停機(jī),Peer 1的工程技術(shù)團(tuán)隊決定扛起水桶為樓上的發(fā)電機(jī)輸送燃油供給。燃油被運(yùn)抵街區(qū)后,再以人力方式被慢慢抬上十七層——那里正是發(fā)電機(jī)的油箱所在,負(fù)責(zé)為樓上的發(fā)電機(jī)提供動力來源。Peer 1公司的托管服務(wù)客戶們——其中包括網(wǎng)站開發(fā)企業(yè)SquareSpace以及在線項目管理供應(yīng)商Fog Creek軟件公司——組織起由25位員工構(gòu)成的隊伍,幫助現(xiàn)場人員進(jìn)行燃油輸送。從10月30日晚到10月31日晚,他們一刻不停地承擔(dān)起了原本應(yīng)由泵機(jī)完成的工作。

到10月31號的午飯時間,他們已經(jīng)順利加滿了油箱并終于能夠休息一會兒。為了吃上午飯,他們需要徒步走過布魯克林橋——因為當(dāng)時曼哈頓街道已經(jīng)被徹底堵死了。很明顯,在Peer 1的災(zāi)難恢復(fù)規(guī)劃中既沒有人力送油方案,也不包含徒步就餐計劃,但正是在這些奮戰(zhàn)在現(xiàn)場的工作人員的努力之下、系統(tǒng)并沒有因為颶風(fēng)的肆虐而陷入停機(jī)。

  一輛SUV引發(fā)的慘劇

Rackspace公司的主機(jī)托管業(yè)務(wù)及由其承載的Mosso Cloud運(yùn)行在位于達(dá)拉斯的同一座數(shù)據(jù)中心內(nèi)部,但2007年11月13日一場無妄之災(zāi)使其在數(shù)小時內(nèi)陷入了癱瘓。

一位大型四驅(qū)車司機(jī)——同時也是一位糖尿病患者——由于病發(fā)而出現(xiàn)短暫昏迷。他沒能正常轉(zhuǎn)向鄰近的街道,而是一路向前直沖,并從丁字路口處奔向路邊外側(cè)的護(hù)堤。護(hù)提這樣的斜坡令瘋狂突進(jìn)的SUV越過一排停放的車輛而沖向空中,并在落地時撞上了一棟容納著Rackspace基礎(chǔ)設(shè)施供電裝置的建筑物——一陣火光帶閃電之后,電力供應(yīng)中斷了。

由于需要切換至備用供電線路,這棟建筑物的冷卻系統(tǒng)出現(xiàn)了暫時性停頓。不過業(yè)務(wù)運(yùn)作過程并沒有被打斷,因為這套計算設(shè)備能夠在遭遇此類緊急情況下利用應(yīng)急電池繼續(xù)工作。該設(shè)施的工作人員立即通過重啟規(guī)程幫助該建筑物的冷卻機(jī)制重新運(yùn)轉(zhuǎn),而緊急處理人員則努力將闖入的車輛清理出去并接入新的電力變壓裝置、關(guān)閉設(shè)施的全部供電體系并從輔助供電裝置切換回主供電裝置。

在其災(zāi)難恢復(fù)規(guī)劃當(dāng)中,電池電源與應(yīng)急發(fā)電機(jī)再次立下大功。數(shù)據(jù)中心到這時仍沒有發(fā)生運(yùn)行中斷現(xiàn)象,事故只不過讓供電網(wǎng)絡(luò)的運(yùn)轉(zhuǎn)功率有所下降。不過冷卻系統(tǒng)中的大型水冷機(jī)組在分步重啟過程中出現(xiàn)了問題。其在重啟中再度陷入癱瘓,而且工作人員發(fā)現(xiàn)已經(jīng)沒辦法在不進(jìn)行深入排查之前讓其重新恢復(fù)工作。

Rackspace公司總裁Lew Moorman在事故之后的一篇博文當(dāng)中提到,“兩套冷卻機(jī)組無法重新啟動,這使得數(shù)據(jù)中心出現(xiàn)了過熱。”由計算設(shè)備產(chǎn)生的熱量足以使現(xiàn)場氣溫急劇上升,而Rackspace公司的現(xiàn)場管理人員決定“分階段關(guān)閉設(shè)備以最大程度降低硬件受損”與客戶數(shù)據(jù)丟失的可能性。

這次中斷一直持續(xù)到當(dāng)天晚間10點(diǎn)50分,也就是事故發(fā)生后的五個小時。軟件即服務(wù)供應(yīng)商37signals——Rackspace托管下的企業(yè)客戶之一——向客戶發(fā)布了評論意見:“這次接連出現(xiàn)的意外事件擊垮了我們?yōu)閿?shù)據(jù)中心建立的復(fù)雜備份系統(tǒng)。我們將努力工作,從而進(jìn)一步對系統(tǒng)加以分散,并最終得以應(yīng)對此類極為罕見的外來因素所導(dǎo)致的停機(jī)事故。”除了增加客戶流失的風(fēng)險之外,據(jù)報道稱Rackspace公司還為此次事故向客戶支付了350萬美元賠償金。

  焊接工作惹麻煩

2015年1月9號,一座將被作為Amazon.com數(shù)據(jù)中心的大型建筑物發(fā)生火災(zāi),起因則是一名焊工不慎點(diǎn)燃了現(xiàn)場的建筑材料。此次火災(zāi)觸發(fā)了弗吉尼亞州阿什本當(dāng)?shù)氐娜壘瘓?。濃烈的黑煙在幾英里之外都清晰可見。Amazon公司發(fā)言人在接受當(dāng)?shù)谹BC新聞媒體采訪時指出,此次火災(zāi)造成了大約10萬美元損失,但同時補(bǔ)充稱“并沒有對Amazon業(yè)務(wù)運(yùn)營帶來任何影響”——因為當(dāng)時該數(shù)據(jù)中心尚未投入使用。

  太陽風(fēng)暴

也許洪水、火災(zāi)以及車禍已經(jīng)足夠令人頭痛了,但真正可惜且避無可避的還是要數(shù)太陽風(fēng)暴侵襲地球大氣層這類大事件。太陽耀斑有時候會引發(fā)所謂的太陽風(fēng)暴,在這種情況下太陽表面的日冕物質(zhì)會由于劇烈活動而沿爆發(fā)前的軌跡被直接拋射出去。

這種案例確實(shí)非常罕見,但一旦真正發(fā)生,太陽表面濺出的物質(zhì)會沖破太空直接向四面八方砸去。而當(dāng)這些帶電粒子接近地球大氣層時,極高的前進(jìn)速度會創(chuàng)造出強(qiáng)大的磁力空間。在此空間內(nèi),導(dǎo)電材料會自動產(chǎn)生電流——正如通電線纜一樣。而管線及電話系統(tǒng)這類長度可觀的導(dǎo)體甚至?xí)瓉砭薮蟮乃矐B(tài)電壓。

這種威脅確實(shí)是真實(shí)存在的,倫敦的Lloyds網(wǎng)站甚至專門發(fā)布過一篇《太陽風(fēng)暴或?qū)⑼{北美電網(wǎng)》的風(fēng)險評估報告。

根據(jù)這篇報告所言:“電網(wǎng)體系可靠性的一大威脅正源自地磁風(fēng)暴——而這會由太陽風(fēng)暴在大氣層上方快速通過而引發(fā)。……由此帶來的過載電壓將使電網(wǎng)系統(tǒng)陷入崩潰,更糟糕的是,昂貴的超高壓變壓器亦有可能因此而發(fā)生大規(guī)模損壞。”

1989年,這樣的風(fēng)暴就直接襲擊了加拿大,瞬態(tài)電壓升高導(dǎo)致魁北克省的水電電網(wǎng)變壓器出現(xiàn)損壞。據(jù)估計,這次事件造成的破壞相較于1859年美國的太陽風(fēng)暴災(zāi)害還算比較輕微——當(dāng)初被稱為“卡林頓事件”的耀斑活動直接導(dǎo)致美國多位報務(wù)員遭受電擊,另有幾處電報局發(fā)生火災(zāi)。1989年的這場事故直接觸發(fā)了東北電力協(xié)調(diào)委員會及中大西洋地區(qū)委員會所布設(shè)的斷路器及過載保護(hù)設(shè)備,如果不是這樣、美國的整體電網(wǎng)幾乎全面遭到毀滅。新澤西州的一處核電站就在升壓變壓器發(fā)生損壞后被迫切斷了與電網(wǎng)間的傳輸通道。

再把目光投向近期,2012年太陽風(fēng)暴曾與地球公轉(zhuǎn)軌道相交于一點(diǎn)——或者說幾乎相交于一點(diǎn)。此次風(fēng)暴在地球抵達(dá)前九天剛剛通過,從天體規(guī)模來看這樣的微小間隙簡直稱得上險過剃頭。

  總結(jié)陳詞

前面提到的各類場景確實(shí)讓人始料未及,而且即使是身經(jīng)百戰(zhàn)的數(shù)據(jù)中心運(yùn)維人員也沒把握將其妥善解決。不過好消息是,相關(guān)企業(yè)機(jī)構(gòu)快速公布了其恢復(fù)方案,且足以成為我們在規(guī)劃未來災(zāi)難恢復(fù)機(jī)制時的寶貴借鑒。

大家有沒有親身經(jīng)歷了這類堪稱挑戰(zhàn)想象力的特殊事件?而處理過此類災(zāi)難恢復(fù)工作的您又有什么經(jīng)驗愿意與大家共享?另外,您心目中最恐怖的災(zāi)難噩夢是怎樣的?請在評論欄中留下您的真知灼見。

原文標(biāo)題:7 Data Center Disasters You'll Never See Coming

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號