保持業(yè)務(wù)全年無中斷運行是最能體現(xiàn)數(shù)據(jù)中心能力的一方面。現(xiàn)在的數(shù)據(jù)中心系統(tǒng)組成復(fù)雜,要確保沒有故障出現(xiàn),幾乎不可能。每年都會有很多著名的大型互聯(lián)網(wǎng)公司被爆出其數(shù)據(jù)中心出現(xiàn)故障,有的業(yè)務(wù)甚至要數(shù)個小時才能恢復(fù),這給數(shù)據(jù)中心的業(yè)務(wù)帶來了嚴(yán)重的損失。所以一定要重視數(shù)據(jù)中心運行的高可靠性,曾經(jīng)的馬來西亞航空公司也是受人尊敬的航空公司之一,然而最近兩年出了兩次的重大墜機事故后,不僅欠下了一屁股債,現(xiàn)在還面臨著關(guān)門的境地。對于數(shù)據(jù)中心也是一樣,以前沒有出過故障,并不代表以后都不會出,一旦出現(xiàn)一次嚴(yán)重的業(yè)務(wù)中斷,對數(shù)據(jù)中心業(yè)務(wù)的影響就是多方面的,不僅僅是金錢上的損失,還有數(shù)據(jù)中心承載業(yè)務(wù)的聲譽。一旦人們認(rèn)為這個業(yè)務(wù)是不穩(wěn)定的,有風(fēng)險的,人們寧愿棄之不用,在科技如此發(fā)達(dá)的今天,沒有什么業(yè)務(wù)是不可替代的,或者找不到替代品,數(shù)據(jù)中心能否提供持續(xù)穩(wěn)定的業(yè)務(wù)運行至關(guān)重要。最近,顯然發(fā)生了不少數(shù)據(jù)中心故障,影響面都比較廣,真可以稱得上是“黑色五月”了。5月11日,網(wǎng)易因骨干網(wǎng)絡(luò)遭受攻擊,導(dǎo)致了網(wǎng)易旗下部分服務(wù)暫時無法正常使用,當(dāng)時還傳言是網(wǎng)易廣州大樓發(fā)生爆炸,導(dǎo)致其旗下多款游戲無法登陸,不過后來證實的確是謠傳。緊接著5月27日,支付寶因為杭州市蕭山光纖被挖斷,也出現(xiàn)了用戶無法正常使用的問題。這起事故,導(dǎo)致全國許多地方的用戶都無法使用支付寶,直到兩個小時后才恢復(fù)正常。然后是5月28日,攜程網(wǎng)因為部分服務(wù)器受到不明攻擊,導(dǎo)致官方網(wǎng)站及APP暫時無法正常使用,攜程網(wǎng)主頁里的二級頁面無法打開,這造成了攜程網(wǎng)業(yè)務(wù)損失一百多萬。這類數(shù)據(jù)中心故障在不斷地上演著,雖然故障已經(jīng)恢復(fù),但是卻留給了我們深深的思考。
數(shù)據(jù)中心這幾年發(fā)展非?;鸨?,各地都是新建或擴建數(shù)據(jù)中心,在數(shù)據(jù)中心設(shè)計上應(yīng)該更加考慮運行的可靠性、冗余性的設(shè)計。如果數(shù)據(jù)中心三天兩頭地故障,擁有再多的服務(wù)器,擁有再好的網(wǎng)絡(luò)也是白費,沒有人愿意使用一個總也不穩(wěn)定的業(yè)務(wù)系統(tǒng)。如果動不動網(wǎng)頁就無法訪問,動不動自己的保密信息就出現(xiàn)了丟失,這些故障對于數(shù)據(jù)中心都是致命性的。我們通常用五個九,即99.999%,來衡量一個數(shù)據(jù)中心的可靠性,如表1定義了數(shù)據(jù)中心的可靠性級別,數(shù)字9越多代表數(shù)據(jù)中心的可靠性越高:
數(shù)據(jù)中心屬于哪個級別的,主要是基于過去數(shù)據(jù)中心運行的數(shù)據(jù)得到的,所以不能代表以后。也許一個數(shù)據(jù)中心以前從來沒有出過長時間的業(yè)務(wù)中斷事故,可靠性達(dá)到了99.999%,但只要出現(xiàn)一次長時間故障,就可能一下子變成了99%,這對數(shù)據(jù)中心業(yè)務(wù)的打擊是非常大的。為了提升數(shù)據(jù)中心的可靠性,數(shù)據(jù)中心必須要引入一些冗余備份機制。其實我們也相信支付寶的數(shù)據(jù)中心也肯定有冗余備份,斷掉一根光纖都能讓業(yè)務(wù)中斷二小時,說明支付寶的數(shù)據(jù)中心本身設(shè)計上是有問題的,至少備份沒有起到應(yīng)有的作用。通過備份確保出現(xiàn)故障時,業(yè)務(wù)流量依然可以有別的通道可走,保持業(yè)務(wù)的連續(xù)性。當(dāng)支付寶的鏈路光纖斷掉后,應(yīng)該有其它的備份鏈路轉(zhuǎn)發(fā)流量,這種通過鏈路聚合或者等價路由這種成熟的技術(shù)就可以完成備份。顯然支付寶故障不是光纖中斷那么簡單,也許是光纖中斷引發(fā)了其它方面的問題,造成了整個系統(tǒng)的癱瘓。數(shù)據(jù)中心是一個復(fù)雜的信息系統(tǒng),冗余設(shè)計也不是通過幾個備份鏈路、等價路由就可以完成的,需要的是全面的規(guī)劃設(shè)計,確保任何一個環(huán)節(jié)都有備份機制。
當(dāng)然,要實現(xiàn)所有地方都有備份,將大大增加系統(tǒng)的復(fù)雜性,反而會大大降低數(shù)據(jù)中心的處理性能。過于復(fù)雜的冗余設(shè)計就可能是畫蛇添足,起到反作用。而且引入過多的冗余機制,將消耗大量的資金和設(shè)備,給數(shù)據(jù)中心運行帶來沉重負(fù)擔(dān),所以也不是什么地方都要備份。在業(yè)務(wù)故障可容忍的范圍內(nèi),部署高效的冗余設(shè)計,才能使得數(shù)據(jù)中心高效地運行。提升數(shù)據(jù)中心業(yè)務(wù)不間斷的處理能力,是數(shù)據(jù)中心的一項持久性工作,貫穿于數(shù)據(jù)中心的整個生命周期中。數(shù)據(jù)中心運維人員應(yīng)該具有如履薄冰的心態(tài),在日常的工作中,勇于發(fā)現(xiàn)系統(tǒng)的缺陷,及時完善,做好各種故障模擬的補救措施。在數(shù)據(jù)中心的運維工作中,也要經(jīng)常進(jìn)行故障模擬演練,考驗數(shù)據(jù)中心系統(tǒng)的冗余設(shè)計是否有不完善的地方,不斷進(jìn)行優(yōu)化和改善。很多的冗余備份設(shè)計可能并不符合實際,在一些異端情況下甚至起不到備份的效果,這就需要主動做一些故障演練,檢驗冗余備份設(shè)計是否滿足設(shè)計要求。以便一旦真的出現(xiàn)了故障,數(shù)據(jù)中心可以從容應(yīng)對。對于一個擁有數(shù)萬臺設(shè)備的數(shù)據(jù)中心,軟硬件故障可能天天都在上演,在這種情況下,要保持業(yè)務(wù)的穩(wěn)定運行,需要做大量的冗余設(shè)計工作。對可能出現(xiàn)的異常狀態(tài),提前進(jìn)行模擬規(guī)避,提升數(shù)據(jù)中心的可靠性。歷史教訓(xùn)告訴我們,不能忽視數(shù)據(jù)中心的可靠性,一旦出了嚴(yán)重的故障,對于數(shù)據(jù)中心可能就是致命的,一次故障可能就會使得數(shù)據(jù)中心“一夜就回到解放前”。切記,莫忽視數(shù)據(jù)中心的可靠性,根據(jù)數(shù)據(jù)中心自身的實際情況,部署切合實際的冗余備份設(shè)計方案,將使數(shù)據(jù)中心終身獲益。