摘要:某些時(shí)候,企業(yè)當(dāng)然需要調(diào)用一套相應(yīng)的災(zāi)難恢復(fù)計(jì)劃,但該災(zāi)難恢復(fù)計(jì)劃是否真的涵蓋了現(xiàn)代數(shù)字化的企業(yè)所需要的一切呢?無論企業(yè)對于突發(fā)事件的準(zhǔn)備有多么全面,也不可能會有一套災(zāi)難恢復(fù)計(jì)劃是能夠完美的應(yīng)付各種不測的。正如分析機(jī)構(gòu)Gartner所指出的那樣:“想要完全避免所有一切的災(zāi)難風(fēng)險(xiǎn)的威脅是不可能的。”
無論企業(yè)對于突發(fā)事件的準(zhǔn)備有多么全面,也不可能會有一套災(zāi)難恢復(fù)計(jì)劃是能夠完美的應(yīng)付各種不測的。正如分析機(jī)構(gòu)Gartner所指出的那樣:“想要完全避免所有一切的災(zāi)難風(fēng)險(xiǎn)的威脅是不可能的。”
但是,如果企業(yè)有一套明確的行動計(jì)劃的話,那么某些停機(jī)中斷事故其實(shí)是可以避免的,或者至少可以說,可以盡量減輕其所帶來的影響。在Computer Weekly網(wǎng)站最新一次的CW500俱樂部活動上,與會的IT領(lǐng)導(dǎo)人們共同交流了關(guān)于他們及其同行在處理和應(yīng)對災(zāi)害事件時(shí)的真實(shí)經(jīng)歷。
“我們?yōu)榭蛻籼峁┝耸澄锊忘c(diǎn)的鏈接,但如果人們不能下訂單的話,對我們來說無疑是一大災(zāi)難。”在線外賣服務(wù)供應(yīng)商Just Eat公司的技術(shù)經(jīng)理Amarpal Attwal表示說。
“我所經(jīng)歷的第一次災(zāi)難事件是:由于丹麥的一處數(shù)據(jù)中心的服務(wù)器出現(xiàn)超載,導(dǎo)致我們所有網(wǎng)站的出現(xiàn)癱瘓。”他說。這個(gè)問題是源于容量規(guī)劃所造成的。Attwal承認(rèn),該公司在其數(shù)據(jù)中心業(yè)務(wù)運(yùn)營方面,還沒有足夠的靈活敏捷性。
對于Just Eat公司而言,另一種形式的災(zāi)難是:企業(yè)工作人員無法連接到內(nèi)部工具。他所經(jīng)歷的第二次災(zāi)難事件是發(fā)生在該公司英國總部的一次電力故障,此次故障的影響更大。“英國總部是所有其他國家辦事處的樞紐。”他補(bǔ)充說。彼時(shí),該公司沒有準(zhǔn)備應(yīng)對災(zāi)害的計(jì)劃。
Attwal說,該公司不得不仔細(xì)排查其基礎(chǔ)設(shè)施,并在企業(yè)業(yè)務(wù)層面創(chuàng)建了一套關(guān)于如何針對災(zāi)難場景及其成本影響進(jìn)行應(yīng)對的框架概述。他說:“我們需要從一個(gè)災(zāi)難恢復(fù)的視角來了解什么對我們來說是最為重要的,最終,我們建立起了一套涉及企業(yè)整個(gè)系統(tǒng)的架構(gòu)。”
其所帶來的結(jié)果是,雖然該公司仍然在丹麥運(yùn)營其數(shù)據(jù)中心,但Just Eat公司現(xiàn)在實(shí)施了cloud native。Atwall說:“我們已經(jīng)把一切工作負(fù)載均遷移到了亞馬遜網(wǎng)絡(luò)服務(wù)(AWS),不僅僅是我們的電子商務(wù)平臺,同時(shí)也包括我們的企業(yè)基礎(chǔ)設(shè)施。”
正是由于在亞馬遜網(wǎng)絡(luò)服務(wù)上部署了公司的網(wǎng)站和業(yè)務(wù)系統(tǒng),Just Eat現(xiàn)在已經(jīng)從企業(yè)的辦公室中移除了物理服務(wù)器。其結(jié)果是各個(gè)的辦事處都連接到同一個(gè)核心。“我們也是SaaS (軟件即服務(wù))的忠實(shí)粉絲——我們要保護(hù)我們的數(shù)據(jù),并盡量減少故障運(yùn)行失敗。”Attwal補(bǔ)充道。
Just Eat采用了一個(gè)預(yù)期失敗的政策,并以該方式架構(gòu)其云系統(tǒng)。IT團(tuán)隊(duì)使用了一款開源的工具稱為Chaos Monkey,該工具最初是由Netflix開發(fā)的,目的旨在能夠在AWS系統(tǒng)組件中故意造成故障以測試反應(yīng),并學(xué)習(xí)如何防止他們擾亂整個(gè)操作。
在處理數(shù)據(jù)中心災(zāi)難的最佳實(shí)踐方面,Attwal說:“實(shí)踐就是一切。我們在我們的備災(zāi)方案中引入了這一概念,例如,所有人都無法登錄的話。我們該怎么辦?于是,我們選擇了處理場景模擬的理論,然后付諸實(shí)際的運(yùn)行。”這樣的模擬情況應(yīng)定期運(yùn)行,而不是一年一次。
考慮人的因素
Attwal說,企業(yè)往往忽視了災(zāi)難恢復(fù)(DR)規(guī)劃:“我們對于發(fā)生某些相關(guān)場景的應(yīng)對規(guī)劃還沒有引起高度重視,例如,如果有20名員工同時(shí)離開公司,應(yīng)如何處理。”為了解決這些模擬場景,Just Eat公司舉辦了一些圓桌討論會,以便讓員工們廣泛的探討和分享他們的專業(yè)知識。
為了避免所有的專業(yè)知識訣竅只被一個(gè)人了解,Just Eat組成了一個(gè)專門的項(xiàng)目團(tuán)隊(duì)。Attwal說:“我們更注重目標(biāo),并組織了一個(gè)專門的團(tuán)隊(duì),這可以幫助降低風(fēng)險(xiǎn)。”
在投資管理公司Brewin Dolphin的業(yè)務(wù)連續(xù)性的負(fù)責(zé)人柯克·蘭利也認(rèn)為,人的元素在災(zāi)害管理中往往被忽視了。
“跨部門的協(xié)作是一項(xiàng)相當(dāng)艱巨的任務(wù)。我曾經(jīng)在許多企業(yè)工作過,負(fù)責(zé)業(yè)務(wù)連續(xù)性的人員與企業(yè)的IT人員往往在相互間形成了孤島。”他說。
蘭利認(rèn)為,業(yè)務(wù)連續(xù)性專家需要了解關(guān)于IT的合理人數(shù)配額:“在任何類型的企業(yè),你都會發(fā)現(xiàn)有人會掐你的團(tuán)隊(duì)。如果你在關(guān)鍵團(tuán)隊(duì)失去了一名理財(cái)規(guī)劃師;或者在金融服務(wù)團(tuán)隊(duì)失去了一名投資經(jīng)理,這固然是一個(gè)商業(yè)問題,但這同時(shí)也是一個(gè)IT問題,因?yàn)槟惚仨毷褂肐T向所有的客戶分配一個(gè)新的投資經(jīng)理。”
就算總部發(fā)生災(zāi)難,靈活的工作團(tuán)隊(duì)也可以使企業(yè)的業(yè)務(wù)繼續(xù)保持正常運(yùn)行進(jìn)行。但正如Just Eat的Attwal所指出的那樣:“沒有什么比面對面的互動是更好的溝通交流模式了。”不要讓同一間辦公室的人也會妨礙規(guī)劃,特別是在災(zāi)難中的早期階段,關(guān)鍵負(fù)責(zé)人員需要一步一步的協(xié)調(diào)各個(gè)流程,這需要調(diào)用該公司的災(zāi)難恢復(fù)策略。
隨著企業(yè)越來越多地使用專用的數(shù)據(jù)中心和云服務(wù),因此,在正確的時(shí)間和正確的職位上安置關(guān)鍵人員就顯得是至關(guān)重要的。戴爾軟件系統(tǒng)顧問的高級經(jīng)理阿德里安·莫爾說:“讓20個(gè)人在一個(gè)數(shù)據(jù)中心,圍著大約四臺機(jī)架并嘗試一起做一切工作是很難的。你企業(yè)的災(zāi)難恢復(fù)中心實(shí)際上是一處辦公室,那里才應(yīng)該是您企業(yè)專業(yè)天才人員和輔助硬件所在。”
莫爾認(rèn)為,數(shù)據(jù)中心災(zāi)難恢復(fù)計(jì)劃往往沒有顧及關(guān)鍵IT人員的因素:“很多人都忘了為業(yè)務(wù)部門提供服務(wù),并確保業(yè)務(wù)部門積極和富有成效的工作的IT部門的同事。”
他說,雖然企業(yè)經(jīng)常會主動的進(jìn)行彈性數(shù)據(jù)中心運(yùn)行,但I(xiàn)T部門往往忘了究竟是誰需要訪問數(shù)據(jù)中心:“想想看,有多少被訪問設(shè)備和應(yīng)用程序需要執(zhí)行災(zāi)難恢復(fù)計(jì)劃。”
精心策劃
當(dāng)系統(tǒng)開啟并運(yùn)行時(shí),沒有人會表示擔(dān)心,人們只會在系統(tǒng)出現(xiàn)故障時(shí)才注意到。然后,企業(yè)的業(yè)務(wù)部門就會不斷的詢問:“我們?nèi)绾尾拍鼙M快恢復(fù)并再次運(yùn)行?”這是一個(gè)關(guān)鍵性的問題,全國建設(shè)協(xié)會災(zāi)難恢復(fù)部門負(fù)責(zé)人詹姆斯·洛奇說。
他說:“在任何特定的某些時(shí)刻,許多企業(yè)都很難確定一款關(guān)鍵系統(tǒng)將需要多長時(shí)間來恢復(fù)。”他說。當(dāng)系統(tǒng)出現(xiàn)故障時(shí),其再次啟動和運(yùn)行的時(shí)間并不能總是可以準(zhǔn)確估計(jì)的。
一家典型的銀行將需要運(yùn)行三種類型的系統(tǒng),洛奇說。保持與客戶互動的系統(tǒng);業(yè)務(wù)系統(tǒng)等進(jìn)行銷售處理;數(shù)據(jù)中心及其系統(tǒng)。顯然,有些系統(tǒng)在不同的時(shí)間內(nèi)對業(yè)務(wù)會有更大的可視性。
“如果當(dāng)所有其他的系統(tǒng)均正常運(yùn)行時(shí),銷售系統(tǒng)發(fā)生故障,那么,較之發(fā)生一次更廣泛的數(shù)據(jù)中心故障,其會具備較高的優(yōu)先級。”洛奇說。業(yè)務(wù)連續(xù)性專家需要考慮的另一個(gè)因素是,關(guān)鍵系統(tǒng)將隨著時(shí)間的不同而改變。例如,電子郵件系統(tǒng)中白天的工作時(shí)間往往比在夜間下班時(shí)間更重要。
在他所使用的這個(gè)災(zāi)難恢復(fù)模型中(見下圖表),洛奇為任何給定的業(yè)務(wù)系統(tǒng)恢復(fù)正常運(yùn)作規(guī)定了時(shí)限,指定其如果發(fā)生故障需要多長時(shí)間恢復(fù)。
從災(zāi)難恢復(fù)的角度來看,數(shù)據(jù)中心的核心組件,如網(wǎng)絡(luò)或Active Directory軟件是一樣重要的,因?yàn)樗鼈儠绊憳I(yè)務(wù)正常運(yùn)行的能力。不幸的是,其往往是難以準(zhǔn)確估計(jì)整個(gè)數(shù)據(jù)中心需要多長時(shí)間才能重新聯(lián)機(jī)。
傳統(tǒng)上,當(dāng)一處數(shù)據(jù)中心發(fā)生中斷后,讓一切業(yè)務(wù)重新恢復(fù)正常運(yùn)營估計(jì)大約需要24到48小時(shí)。洛奇說,但通過將數(shù)據(jù)中心分割成各個(gè)組成成分,有可能對于企業(yè)的恢復(fù)時(shí)間做出更準(zhǔn)確的評估。“這是對數(shù)據(jù)中心建立更精細(xì)的恢復(fù)的一種方法。”他說。
自上而下的策略
根據(jù)Gartner的分析師介紹,企業(yè)災(zāi)難恢復(fù)策略問題的產(chǎn)生是因?yàn)闉?zāi)難恢復(fù)規(guī)劃并不是從企業(yè)整體戰(zhàn)略角度出發(fā),并排序適當(dāng)?shù)膬?yōu)先事項(xiàng)和目標(biāo)自上而下建立的。舉例來說,Just Eat公司就只是建立了一個(gè)框架,用于處理未來的事件。
這種策略需要明確規(guī)定:關(guān)鍵責(zé)任人必須在何處待崗——特別是如果數(shù)據(jù)中心系統(tǒng)需要重新啟動時(shí)。顯然,這些人員需要訪問業(yè)務(wù)連續(xù)性站點(diǎn)并必須在重啟系統(tǒng)時(shí)具備系統(tǒng)的訪問權(quán)限。這涉及到業(yè)務(wù)連續(xù)性管理者對于所需專業(yè)IT人員的充分理解。
雖然系統(tǒng)儀表板將就相關(guān)問題提醒IT團(tuán)隊(duì),但企業(yè)內(nèi)部的其他部門可能也需要被迅速提醒,尤其是在當(dāng)前客戶一旦在網(wǎng)站或移動App遇到問題是,他們會第一時(shí)間將問題發(fā)布到社交媒體。“通常情況下,客戶可能會意識到發(fā)生了一次中斷事故,并會在八分鐘內(nèi)開始將這些消息發(fā)表到社交媒體。”洛奇說。
因此他建議企業(yè)要主動和積極的管理Twitter等社會媒體。根據(jù)企業(yè)類型的不同,社交媒體監(jiān)測和團(tuán)隊(duì)管理媒體是必不可少的手段,洛奇說。
沒有人能充分保護(hù)主要系統(tǒng)不會發(fā)生任何故障。但是,正如洛奇所指出的那樣:“由此所帶來的企業(yè)聲譽(yù)的損害可能會遠(yuǎn)遠(yuǎn)大于企業(yè)的實(shí)際經(jīng)濟(jì)損失。”因此,現(xiàn)代企業(yè)災(zāi)難恢復(fù)策略需要包括的不僅僅是讓IT系統(tǒng)迅速重新聯(lián)機(jī)。