平時上網(wǎng)時我們偶爾會遇到這樣的問題,游戲突然掉線;網(wǎng)頁崩潰;網(wǎng)上購物無法查看商品等等,也許我們會覺得無所謂,等一下在訪問就好,不會有什么影響,然后對于數(shù)據(jù)中心來說并非如此。
比如購物網(wǎng)站,如果頁面訪問中斷或者非常緩慢超過1分鐘,40%的人會選擇轉(zhuǎn)投其它網(wǎng)站完成購物,如果中斷超過1小時,甚至連續(xù)的多日中斷,超過50%的人會徹底放棄這個購物網(wǎng)站,在自己的網(wǎng)頁里永遠(yuǎn)不會再放置這個購物網(wǎng)址,這對于購物網(wǎng)站來說是非常致命的,意味著大批的用戶都會消失。
數(shù)據(jù)中心事故常在發(fā)生,筆者粗略的整理了幾個2016年影響范圍比較大數(shù)據(jù)中心故障
2016年1月14日Verizon公司運(yùn)營的數(shù)據(jù)中心電力中斷,導(dǎo)致美國廉價航空捷藍(lán)航空公司的客戶的旅行延誤了幾個小時。數(shù)據(jù)中心停電發(fā)生在當(dāng)日上午11時37分,捷藍(lán)航空在下午2:30可以正常運(yùn)行其在線預(yù)訂服務(wù)和機(jī)場辦理登機(jī)手續(xù)的業(yè)務(wù)。大約40分鐘后,電力恢復(fù)。而捷藍(lán)航空公司完整的在線服務(wù),包括飛行跟蹤功能等,直到晚上8點才恢復(fù)。
2016年1月18日Microsoft Office 365的用戶的電子郵件賬戶出現(xiàn)問題,微軟將故障歸咎于一次錯誤的軟件更新,但是其初次修復(fù)的嘗試并沒有解決問題,在最初的故障出現(xiàn)五天之后,第二次電子郵件故障又爆發(fā)了,這一次激怒了很多用戶。
然而無獨有偶,2月22日,歐洲的一些Office 365客戶遇到了用手機(jī)無法訪問電子郵件的問題,或者在嘗試通過網(wǎng)絡(luò)門戶登錄Office 365服務(wù)的時候出現(xiàn)了延遲的問題,在幾個小時的時間里,該問題間歇性地影響了用戶使用。微軟將這個問題歸咎于對云資源的需求過大。
2016年4月11日傍晚,Google Cloud Platform出現(xiàn)了大約18分鐘的中斷,影響了其所有地區(qū)的Compute Engine實例和VPN服務(wù)。谷歌為受到影響的客戶補(bǔ)償了10%的Google Compute Engine月服務(wù)費(fèi),以及25%的VPN月服務(wù)費(fèi)。
2016年5月10日6:30到5月11日下午14:30,提供云服務(wù)的Salesforce.com遭遇了一次由于停電導(dǎo)致的大范圍服務(wù)器宕機(jī),此次宕機(jī)影響了北美的14個站點,同時北美的用戶也受到影響。更糟糕的是,宕機(jī)故障發(fā)生后,Salesforce.com工作人員希望將數(shù)據(jù)庫恢復(fù)到4小時以前的狀態(tài),但不幸的是,這一操作進(jìn)而導(dǎo)致了這4個小時內(nèi)的數(shù)據(jù)丟失。
2016年7月20日,Equinix公司子公司Telecity公司的倫敦數(shù)據(jù)中心由于UPS電源系統(tǒng)故障,導(dǎo)致連接其數(shù)據(jù)中心的英國各地的互聯(lián)網(wǎng)絡(luò)中斷。其時間從早上07:55持續(xù)到08:17。Equinix公司的工程師都在現(xiàn)場進(jìn)行處理,并積極與客戶合作,將其影響降到最低程度。
數(shù)據(jù)中心故障等級
數(shù)據(jù)中心每中斷一秒,都會給企業(yè)帶來巨大的損失,于是十年前,Uptime研究所按照數(shù)據(jù)中心故障發(fā)生的時間長度對其進(jìn)行了分類、比較,把數(shù)據(jù)中心分為四類:
T1級年平均故障時間28.8小時;
T2級年平均故障時間22小時;
T3級年平均故障時間1.6小時;
T4級年平均故障時間0.4小時;
數(shù)據(jù)中心故障每一小時就能造成巨大的損失
上面的盤點只是2016年數(shù)據(jù)中心故障的一部分,數(shù)據(jù)中心有多重要?從各行業(yè)數(shù)據(jù)中心業(yè)務(wù)每中斷1小時所帶來的損失,就可見一斑了:
能源行業(yè)每小時損失281.78萬美元;
通信行業(yè)每小時損失206.62萬美元;
制造業(yè)每小時損失161.06萬美元;
金融機(jī)構(gòu)每小時損失149.51萬美元;
IT行業(yè)每小時損失133.45萬美元;
保險行業(yè)每小時損失120.25萬美元;
零售行業(yè)每小時損失110.73萬美元;
醫(yī)藥行業(yè)每小時損失108.23萬美元;
化工行業(yè)每小時損失70.41萬美元;
交通行業(yè)每小時損失66.86萬美元。
是不是很可怕?然而這份數(shù)據(jù)來自2010年,6年前分析的數(shù)據(jù),到如今按照分鐘算都可能不止上述的數(shù)字了。這恰恰意味著現(xiàn)在人們的工作生活越來越離不開數(shù)據(jù)中心,同樣數(shù)據(jù)中心能夠穩(wěn)定的運(yùn)行,才能擁有更多的用戶。
數(shù)據(jù)中心無法預(yù)知下一次的故障在何時何地,可以確定的是一定會再發(fā)生。我們無法預(yù)知但可以做到秒級甚至毫秒級的業(yè)務(wù)中斷。數(shù)據(jù)中心有從協(xié)議級、鏈路級、設(shè)備級,直到系統(tǒng)級的各種備份技術(shù),這里很多備份技術(shù)可以達(dá)到毫秒、秒級,一旦發(fā)現(xiàn)業(yè)務(wù)異常,實現(xiàn)自動切換,確保業(yè)務(wù)不受影響或者少受影響。這些備份技術(shù)大大提升了數(shù)據(jù)中心連續(xù)穩(wěn)定運(yùn)轉(zhuǎn)能力,同時也增加了數(shù)據(jù)中心運(yùn)營的成本。如果處處考慮備份,無疑會使數(shù)據(jù)中心不堪重負(fù),往往要花費(fèi)數(shù)倍于現(xiàn)有數(shù)據(jù)中心建設(shè)的成本。
對于當(dāng)前數(shù)據(jù)中心密集應(yīng)用環(huán)境下,毫秒級恢復(fù)能力成為數(shù)據(jù)中心的故障恢復(fù)指標(biāo),只有做到毫秒級的故障恢復(fù),才能基本保證業(yè)務(wù)不受影響。