電力的小船說翻就翻,數(shù)據(jù)中心該如何是好

責(zé)任編輯:editor006

作者:黃雪

2016-05-13 17:01:48

摘自:中國IDC圈

其實近年來無論是國外還是國內(nèi)的數(shù)據(jù)中心,因為電力故障導(dǎo)致的服務(wù)器宕機不在少數(shù),而且都值得人們引起注意和反思。那么如何來規(guī)避電力故障事件的發(fā)生,在數(shù)據(jù)中心的供電系統(tǒng)這方面應(yīng)提出更高的要求,爭取做到數(shù)據(jù)中心永不斷電。

周二早上6:30到周三下午14:30,提供云服務(wù)的Salesforce.com遭遇了一次由于停電導(dǎo)致的大范圍服務(wù)器宕機,此次宕機影響了北美的14個站點,同時北美的用戶也受到影響。

更糟糕的是,宕機故障發(fā)生后,Salesforce.com工作人員希望將數(shù)據(jù)庫恢復(fù)到4小時以前的狀態(tài),但不幸的是,這一操作進而導(dǎo)致了這4個小時內(nèi)的數(shù)據(jù)丟失。

此消息一出引起了廣泛關(guān)注。一位使用了salesforce.com五年的用戶表示,從未想過提供云服務(wù)的salesforce.com會出現(xiàn)因電力故障所引起的服務(wù)器宕機。

其實近年來無論是國外還是國內(nèi)的數(shù)據(jù)中心,因為電力故障導(dǎo)致的服務(wù)器宕機不在少數(shù),而且都值得人們引起注意和反思。

數(shù)據(jù)中心電力故障事件比比皆是

2011年11月,據(jù)網(wǎng)友爆料,世紀互聯(lián)天津機房出現(xiàn)了停電事故,部分地區(qū)的互聯(lián)網(wǎng)用戶受到影響,受到此次事故影響的互聯(lián)網(wǎng)服務(wù)包括傲游瀏覽器、豌豆莢等。

2012年7月,美國東海岸爆發(fā)的大型雷電暴風(fēng)雨導(dǎo)致亞馬遜云計算數(shù)據(jù)中心電力遭到破壞,暴風(fēng)雨損害了他們的主要電力服務(wù)和備用發(fā)電機,包括Netflix、圖片共享服務(wù)Instagram和Pinterest在內(nèi)的客戶服務(wù)出現(xiàn)中斷。

2012年10月,電商網(wǎng)站凡客誠品(vancl.com)出現(xiàn)訪問故障。凡客誠品相關(guān)負責(zé)人表示,出現(xiàn)這一問題是因為機房停電。據(jù)悉當(dāng)天還是凡客誠品五周年的紀念日,此次停電事件造成的經(jīng)濟損失據(jù)說達千萬元。

2014年11月,新加坡證券交易所(SGX)業(yè)務(wù)系統(tǒng)中止了將近三個小時,因其數(shù)據(jù)中心無法應(yīng)付由雷擊引起的電壓波動而停電宕機,并且導(dǎo)致其切換到輔助數(shù)據(jù)中心的數(shù)據(jù)不完整。由于停電,致使2小時42分的證券交易中斷和4小時27分鐘的衍生業(yè)務(wù)計劃外停機,嚴重影響新加坡作為金融中心的聲譽。

2015年8月,位于美國洛杉磯市中心的一個高層建筑的地下室發(fā)生了爆炸,一個三級通信網(wǎng)絡(luò)基礎(chǔ)設(shè)施在爆炸中連接中斷,其中影響了很多該地區(qū)數(shù)據(jù)中心用戶的業(yè)務(wù),由于這個事件發(fā)生,一家公司的數(shù)據(jù)中心全部斷電。

2015年9月,日本富士通集團在美國硅谷的數(shù)據(jù)中心遭遇停電,致使其一些云服務(wù)中斷。一些客戶報告說,其影響持續(xù)了幾天之久,這個問題是由輸變電設(shè)備發(fā)生故障引起的。

……

數(shù)據(jù)中心停電損失超過5000美元/分鐘

眾所周知,對于數(shù)據(jù)中心來說電是至關(guān)重要,數(shù)據(jù)中心的正常運轉(zhuǎn)唯一離不開的就是電,不難想象,無論數(shù)據(jù)中心設(shè)備多么先進、功能多么強大,可是一旦斷電,再好的系統(tǒng)也無法運轉(zhuǎn),電對數(shù)據(jù)中心的重要性就像水對魚兒的重要性一樣。

雖然如此,數(shù)據(jù)中心停電事故并不少見,根據(jù)一份研究報告顯示,95%的美國企業(yè)在過去兩年中至少遭遇一次數(shù)據(jù)中心停電事故,導(dǎo)致停電的原因有的是因為天災(zāi)意外無可避免,有的是因為數(shù)數(shù)據(jù)中心專業(yè)人員采用措施不當(dāng)且投資不足,阻礙了停電預(yù)防和停電反應(yīng)時間等等。

但無論是哪方面的原因所致,相信這都是業(yè)界不愿看到的,因為即使是短暫的電力中斷也會很麻煩。失去0.02秒電力,可能觸發(fā)讓IT設(shè)備遭遇15分鐘到數(shù)小時的宕機事件,這種停機時間將讓企業(yè)付出巨大的代價。據(jù)了解,數(shù)據(jù)中心意外停電每分鐘損失可超過5,000美元,包括收入和生產(chǎn)損失、數(shù)據(jù)損毀和利益相關(guān)者的信任受到損害帶來的損失,以及企業(yè)所付相應(yīng)的法律責(zé)任所導(dǎo)致的損失。

機房停電折射數(shù)據(jù)中心服務(wù)商運營能力

數(shù)據(jù)中心停電所帶來的損失除金錢方面,更重要的是公司聲譽和客戶信譽的永久性損失。數(shù)據(jù)中心的用戶會對服務(wù)商的服務(wù)能力表示擔(dān)憂,數(shù)據(jù)中心服務(wù)商的服務(wù)能力因此而將受到極大質(zhì)疑。機房停電后為何備用電源及發(fā)電設(shè)備沒有緊急啟用?網(wǎng)站數(shù)據(jù)和相關(guān)災(zāi)備服務(wù)是否到位等問題,都折射出數(shù)據(jù)中心服務(wù)商在應(yīng)對突發(fā)事件的處理乏力,機房運營能力薄弱等問題。

那么如何來規(guī)避電力故障事件的發(fā)生,在數(shù)據(jù)中心的供電系統(tǒng)這方面應(yīng)提出更高的要求,爭取做到數(shù)據(jù)中心永不斷電。

首先是要考慮供電系統(tǒng)的可靠性,尤其隨著數(shù)據(jù)中心承載的業(yè)務(wù)越來越多,也越來越重要,大中型的數(shù)據(jù)中心都要求達到99.999%以上的供電可靠性。

其次是考慮供電的持續(xù)性,在數(shù)據(jù)中心建成以后,供電系統(tǒng)就很難再做調(diào)整了。所以在數(shù)據(jù)中心建設(shè)初期一定要對供電系統(tǒng)進行周密設(shè)計,并對數(shù)據(jù)中心的未來進行預(yù)估,做出預(yù)留。

最后是要考慮維護管理的便捷性,在設(shè)計建設(shè)數(shù)據(jù)中心供電系統(tǒng)時,必須考慮后期使用維護的方便性。目前有不少數(shù)據(jù)中心供電系統(tǒng)的管理軟件,通過管理軟件對供電系統(tǒng)進行智能化管理,往往可以減少維護的工作量。

當(dāng)然,要想建設(shè)質(zhì)量高的供電系統(tǒng)不僅需要全面周全的設(shè)計和具有前瞻性的分析,更重要的是要有資金的投入,而以上這些都是對數(shù)據(jù)中心服務(wù)商能力的考驗。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號