2014年春節(jié),隨著華為IT容災現(xiàn)場指揮的一聲令下,華為開始了數(shù)據(jù)中心帶業(yè)務容災演練,將500多個IT系統(tǒng)從深圳總部數(shù)據(jù)中心切換到南京容災中心,并在南京支撐全球業(yè)務正常運行一天后,回切至深圳數(shù)據(jù)中心。
從結果看來,演練切換和回切堪稱完美,這一過程中,沒有任何數(shù)據(jù)丟失和不一致。數(shù)據(jù)中心關鍵系統(tǒng)的切換和回切均在2小時內(nèi)完成,其余系統(tǒng)4小時內(nèi)全部完成。
華為數(shù)據(jù)中心帶業(yè)務容災演練實施過程圖
據(jù)悉,在容災中心運行期間,有近2500人正常使用ERP等相關系統(tǒng),近13萬人次訪問企業(yè)BG官網(wǎng),有效支撐了業(yè)務連續(xù)性運作。
這是一次很有挑戰(zhàn)的容災演練。據(jù)華為企業(yè)業(yè)務BG規(guī)劃咨詢部部長傅依林介紹,一是兩地之間的遠距離,深圳數(shù)據(jù)中心和南京數(shù)據(jù)中心相距1300多公里;二是環(huán)境復雜,涉及切換的系統(tǒng)超過500多個,各系統(tǒng)之間有復雜的集成關系;三是數(shù)據(jù)量巨大。
華為數(shù)據(jù)中心容災規(guī)劃
華為從2001年開始,在數(shù)據(jù)中心與容災的規(guī)劃、設計、建設與運營上積累了豐富的經(jīng)驗。以三個階段劃分,為摸索階段、一主一備階段和未來的兩地三中心階段。
傅依林告訴記者,第一階段從2001年開始,華為在北京建立ERP等關鍵系統(tǒng)的數(shù)據(jù)容災,2005年建立關鍵系統(tǒng)的同城同步容災,2008年實現(xiàn)國內(nèi)外研究所重要研發(fā)數(shù)據(jù)異地容災。第二階段進行了系統(tǒng)性的規(guī)劃和設計,2009年結合業(yè)界最佳實踐,華為發(fā)布了完整的容災管理體系。2010年啟用南京容災中心并整合容災為異地互備模式,建立專業(yè)容災運維組織。2011年開始,陸續(xù)實施了多項容災演練,包括PDM單系統(tǒng)帶業(yè)務容災演練、LTC流程端到端集成容災演練、數(shù)據(jù)中心集成功能演練和最近的數(shù)據(jù)中心異地帶業(yè)務容災演練。
未來的容災模式是兩地三中心,按照華為規(guī)劃,華為將建成兩地三中心容災架構,實現(xiàn)關鍵業(yè)務同城雙活容災。傅依林介紹說,“深圳的數(shù)據(jù)中心是4000多平,往未來看,目前數(shù)據(jù)中心的容量是不能滿足未來10-15年的業(yè)務發(fā)展的。”
未來10-15年,隨著業(yè)務的發(fā)展,華為企業(yè)數(shù)據(jù)中心面積將需要達到10000平米。“目前,新數(shù)據(jù)中心已經(jīng)完成設計并開工建設,預計在2016年7月投入使用。”
同時,在松山湖華為另有一個1200平米的數(shù)據(jù)中心,以后作為同城的容災中心。“因為異地的容災中心恢復的時間相對長一些,主數(shù)據(jù)中心一旦出現(xiàn)問題,可以在2小時內(nèi)借助同城容災快速恢復關鍵業(yè)務。目標實現(xiàn)同城雙活的‘零數(shù)據(jù)丟失’、‘業(yè)務無感知切換’。”傅依林說。
南京依然作為異地容災中心,整體看來,華為兩地三中心的模式已經(jīng)完成了架構設計,并構成了容災路線圖。
華為容災能力
對華為來說,IT容災是公司業(yè)務持續(xù)運行的基礎性保障,對內(nèi)支撐企業(yè)的長期發(fā)展,對外支撐企業(yè)的社會責任以及客戶與行業(yè)的認證要求。華為目前有15萬員工,分布全球150個國家,700多個辦公地點,共有16個研究所。保證業(yè)務的連續(xù)性,要求IT系統(tǒng)的高可用,是業(yè)務運作與發(fā)展的首要內(nèi)在要求。
“另外,華為跟很多跨國的運營商打交道,例如BT、Vodafone等,他們對業(yè)務的連續(xù)性有很高要求,會到華為來認證具不具備這種容災能力。有了客戶要求,華為還要證明具不具備這種能力,自2005年以來,華為就一直保持ISO20000、ISO 27001等有效認證,目前正在進行Cobit評估準備等。”傅依林說。
華為容災以在規(guī)劃、設計、建設與運營方面已經(jīng)具備的全方位、端到端的數(shù)據(jù)中心與容災能力為支撐,除了在布局、選址、性能容量、技術標準的規(guī)劃能力外,傅依林表示,在數(shù)據(jù)中心容災系統(tǒng)設計上,華為沿公司主業(yè)務流分層分級構建容災環(huán)境,兼顧容災效果與成本:劃分為公司生存攸關的為Vital級別,運營必須的為Critical級別,日常運作需要的為Important級別。通過在業(yè)務上的一些重要性來確定IT系統(tǒng)的級別,從而來甄別這些IT系統(tǒng)的不同級別的容災設計。
容災網(wǎng)絡設計與建設是華為的強項,華為在異地容災網(wǎng)絡中,采用網(wǎng)絡高可用和網(wǎng)絡架構雙冗余,骨干線路雙供應商,分支機構同時接入深圳數(shù)據(jù)中心和南京容災中心。保證5級QoS,實現(xiàn)重點業(yè)務重點保障。同時讓容災中心應用的防火墻策略與生產(chǎn)環(huán)境一致,確保容災中心應用實時可用。
在運營上,“華為數(shù)據(jù)中心運行管理瞄準國際標準和最佳實踐,流程成熟度達到了持續(xù)改進級。容災管理完美融于與華為IT基于ITIL V3的IT運行流程管理框架。”傅依林說。
基于這一系列能力,即使面臨眾多挑戰(zhàn)下,華為如期完成數(shù)據(jù)中心容災演練。傅依林強調(diào),“容災演練成功本身就標志著華為容災能力得到驗證,作為一個全球化運作的企業(yè),這樣的成功案例本身就是一個很好的信息化建設樣板品,也對其他大型企業(yè)起到借鑒意義。”