由亞馬遜宕機引發(fā)的思考:“云災(zāi)備”來得是不是時候

責(zé)任編輯:editor007

作者:云哥特

2016-03-15 21:01:59

摘自:百度百家

美國當(dāng)?shù)貢r間3月10日,亞馬遜再次發(fā)生停服事故,前后持續(xù)約20分鐘。由此可見,無論是在物理環(huán)境中的容災(zāi),還是云容災(zāi),都要對癥下藥,針對客戶的不同需求和保護(hù)等級采用合理的容災(zāi)解決方案。

又宕機了!

美國當(dāng)?shù)貢r間3月10日,亞馬遜再次發(fā)生停服事故,前后持續(xù)約20分鐘。這次事故不僅導(dǎo)致亞馬遜電子商務(wù)主網(wǎng)站無法訪問,而且也波及到了亞馬遜的其他服務(wù),其中就包括亞馬遜云計算服務(wù),以及一些數(shù)字內(nèi)容服務(wù)等。

云計算在給個人和企業(yè)用戶帶來諸多便利的同時,近幾年來頻繁發(fā)生的各種云事故也增加了人們對云的擔(dān)心。最近一段時間,云災(zāi)備這個新概念在國內(nèi)逐漸興起,將備份和容災(zāi)放到云中漸成趨勢。亞馬遜這次停服事故讓記者聯(lián)想到,如果云服務(wù)商三天兩頭出問題,那么用戶還敢放心地采納云災(zāi)備嗎?

宕機,見怪不怪

既然談到宕機,那么不妨先回顧一下過去兩年全球范圍內(nèi)發(fā)生的曾引起廣泛關(guān)注的云事故。

2014年11月2日下午,騰訊云服務(wù)器出現(xiàn)了6分鐘的訪問故障。騰訊云網(wǎng)站響應(yīng)速度慢,圖片打不開,并出現(xiàn)無法登錄管理中心控制臺等問題。

2015年3月11日,Apple iCloud內(nèi)部DNS錯誤導(dǎo)致其iTunes和App Store的服務(wù)宕機,一些iCloud的電子郵件帳戶也受到短暫影響。

2015年,5月27日晚6點時左右,杭州、北京、上海、武漢等地用戶反映,支付寶無法正常使用。支付寶公司對故障的回應(yīng)稱,杭州蕭山某地光纖被挖斷,導(dǎo)致故障。

2015年6月21日,阿里云香港節(jié)點當(dāng)天9點30分左右突然全線崩潰,截至當(dāng)晚22點才逐漸恢復(fù),整體過程歷時近13小時。

2015年,8月22日,位于美國硅谷的富士通數(shù)據(jù)中心供電異常,導(dǎo)致公有云服務(wù)暫時下線,5天后才恢復(fù)正常。

2015年9月20日,亞馬遜AWS宕機,首先是亞馬遜DynamoDB服務(wù)出現(xiàn)問題,此后亞馬遜的其他服務(wù)也受到影響,同時波及了很多著名網(wǎng)站。

不用再繼續(xù)了吧。上述諸多例子已經(jīng)說明,隨著云服務(wù)的普及,各種原因?qū)е碌腻礄C也成了家常便飯。這也算是一種云服務(wù)的“新常態(tài)”吧。

“公眾應(yīng)該認(rèn)識到,云并不能保證萬無一失。隨著云上的應(yīng)用越來越多,業(yè)務(wù)價值越來越重要,影響越來越廣泛,宕機也會是常態(tài)。”英方股份(以下簡稱英方)CEO胡軍擎表示,“有些用戶以為,采用了云計算以后,就可以把安全、業(yè)務(wù)連續(xù)性等問題完全交給云計算廠商去解決,這就如同把數(shù)據(jù)問題交給磁盤廠商一樣不合理。”云服務(wù)商可以為用戶提供云主機,但是如何保護(hù)云主機,是否采用災(zāi)備,這些事情還是要用戶自己來考慮和決定。

“公有云很脆弱,它們本身也需要做災(zāi)備。”備份、容災(zāi)軟件提供商中科同向總經(jīng)理鄔玉良開門見山,“數(shù)據(jù)越集中,風(fēng)險也越集中,尤其是集中部署的電子商務(wù)、云計算系統(tǒng),一旦發(fā)生宕機,用戶會損失慘重。”鄔玉良補充說,中科同向有針對公有云的災(zāi)備解決方案。

同樣專注于數(shù)據(jù)保護(hù)和容災(zāi)領(lǐng)域的愛數(shù)公司認(rèn)為:如果僅僅是災(zāi)備的數(shù)據(jù)在云中,那么云本身出現(xiàn)問題,對應(yīng)用的影響有限;如果用戶的業(yè)務(wù)系統(tǒng)在云中,那么為了避免因云出現(xiàn)問題而導(dǎo)致?lián)p失,用戶應(yīng)該事先對云中的業(yè)務(wù)做備份和容災(zāi)。使用阿里云的愛數(shù)公司,會定期將業(yè)務(wù)數(shù)據(jù)從云中備份到本地,以防止出現(xiàn)云故障時不能對外提供服務(wù)。

災(zāi)備需求會永遠(yuǎn)存在

看到亞馬遜宕機的消息后,記者第一時間詢問國際災(zāi)難恢復(fù)(中國)協(xié)會(DRI China)總裁于天對此事的看法。他表示:“根據(jù)目前得到的有限信息,無法對亞馬遜宕機事件做出評價。但是,并非只要發(fā)生問題就一定要給個差評。從專業(yè)的BCM(業(yè)務(wù)連續(xù)性管理)的角度看,業(yè)務(wù)系統(tǒng)永遠(yuǎn)不發(fā)生問題,這是不現(xiàn)實的。我們更關(guān)注的是,在問題發(fā)生后,如何評估影響,并采用積極有效的措施解決問題。這才是業(yè)務(wù)連續(xù)性管理和災(zāi)備存在的價值。”

于天認(rèn)為,從報道的內(nèi)容來看,亞馬遜宕機20分鐘后就恢復(fù)了正常,僅從這一點來看,并不能說明亞馬遜在災(zāi)備方面做的不好(當(dāng)然還要看其用戶所受影響大小,以及亞馬遜對用戶的承諾)。因此,用戶不必對公有云產(chǎn)生過分憂慮,如果真的由此而不敢采用公有云,那就是因噎廢食。當(dāng)然,宕機事件必須引起足夠重視,并深入分析問題的根源。從BCM的角度出發(fā),只要采取有效的措施,就可以降低發(fā)生問題的概率,減少不良影響。

3月11日,可信云服務(wù)第五次情況通報會在北京舉行,會上公布了可信云服務(wù)第五批認(rèn)證結(jié)果:在72家云服務(wù)商提交的87項云服務(wù)中,30項云服務(wù)通過了第五批可信云認(rèn)證,通過率為35%,較前四批有所下降。

會上還首次公布了可信云云主機可用性檢測情況。2015年9月至2015年12月,可信云云主機可用性監(jiān)測的平均可用性達(dá)97.7%-99.9%,31%的云主機連續(xù)6個月達(dá)到了自身承諾可用性。這基本反映了當(dāng)前國內(nèi)云主機的可用性狀況。從統(tǒng)計數(shù)據(jù)看,保持云主機的連續(xù)可用性任務(wù)艱巨。

美國飛康公司副總裁、亞太區(qū)總經(jīng)理楊政表示:“作為云災(zāi)備的一個重要載體,云服務(wù)提供商能否保證自身基礎(chǔ)架構(gòu)的安全、可靠非常重要。對于用戶來說也是如此,把IT遷到云端并不代表解決了所有管理方面的問題。這些云服務(wù)的提供商也許有興趣和我們這些軟件定義存儲或虛擬化軟件的廠商坐下來探討一下,如何進(jìn)一步提升云的可靠性,讓用戶更放心。”

作為云災(zāi)備服務(wù)商,英方也不能完全保證用來做災(zāi)備的服務(wù)器不宕機。英方能做到的是,實現(xiàn)合理的災(zāi)備部署,保證生產(chǎn)系統(tǒng)和災(zāi)備系統(tǒng)不同時宕機。“在任何情況下,企業(yè)都應(yīng)該未雨綢繆,防患于未然。這也是英方提出‘讓世界早有準(zhǔn)備’的初衷。”胡軍擎表示。

現(xiàn)在是全球知名的亞馬遜出現(xiàn)了宕機,引起了人們的廣泛關(guān)注,如果換成國內(nèi)的阿里云出現(xiàn)故障呢?我們只能說,出現(xiàn)宕機的情況其實很正常。就像服務(wù)器廠商不可能承諾自己的服務(wù)器100%不出問題一樣,云服務(wù)商也不會做出相同的承諾。這也說明,不管到了什么時代,即使是云全面普及的時代,災(zāi)備、高可用性的需求仍會存在。用戶必須認(rèn)真考慮災(zāi)備,這是必不可少的一環(huán)。

容災(zāi)要講究方法和策略

“比起數(shù)據(jù)大集中,云模式的安全風(fēng)險更大,因為云把所有企業(yè)和與之相關(guān)的系統(tǒng)、應(yīng)用全都集中在一起。”萬國數(shù)據(jù)副總裁張權(quán)表示,“如果企業(yè)能夠采用混合架構(gòu),就能更好地分散風(fēng)險。另外,采用云計算以后,智能化的監(jiān)控和運維就顯得非常必要和重要。只有采用智能化的監(jiān)控和運維,才能更快地發(fā)現(xiàn)問題,解決問題,縮短RTO的時間。”

談到云災(zāi)備,深藍(lán)云海系統(tǒng)部總監(jiān)姜亞杰表示:”首先,云災(zāi)備系統(tǒng)并不是生產(chǎn)環(huán)境,所以云服務(wù)商的宕機不會影響生產(chǎn)系統(tǒng);其次,云災(zāi)備的監(jiān)控尤為重要,一旦發(fā)現(xiàn)問題,必須及時采用應(yīng)急處理措施;最后,云災(zāi)備本身可以通過級聯(lián)或‘一備二’的方式進(jìn)行災(zāi)備的災(zāi)備。“

作為阿里云的鉆石合作伙伴,英方云獨有的字節(jié)級數(shù)據(jù)捕獲與復(fù)制技術(shù)可以實現(xiàn)I/O級別的數(shù)據(jù)增量傳輸,占用帶寬低,節(jié)省存儲空間;其多方位數(shù)據(jù)加密技術(shù),可確保數(shù)據(jù)傳輸安全可靠。

簡單說,所謂云災(zāi)備就是將傳統(tǒng)采用物理機的災(zāi)備端替換為云平臺,以便提供更具彈性、靈活性和經(jīng)濟性的災(zāi)備服務(wù)。胡軍擎舉例說:“如果用戶選擇利用阿里云的云主機來承載自身的關(guān)鍵業(yè)務(wù),那么就應(yīng)該同時在阿里云的另外一個節(jié)點上部署應(yīng)用級的災(zāi)備。我們與阿里云聯(lián)合提供的高可用的云主機服務(wù)是這樣做的。”

2016年3月,深藍(lán)云海剛剛發(fā)布了應(yīng)用級的云災(zāi)備平臺。“我們會針對用戶的應(yīng)用系統(tǒng)級別和相應(yīng)的災(zāi)備需求,制定相應(yīng)的災(zāi)備策略。有些系統(tǒng)可以采用‘本地HA(高可用)系統(tǒng)+應(yīng)急”的方式,有的可以采用數(shù)據(jù)級的容災(zāi),還有些系統(tǒng)適合部署應(yīng)用級的云容災(zāi),那些特別重要的系統(tǒng)可以考慮采用基于異構(gòu)云平臺的應(yīng)用級容災(zāi)。“姜亞杰表示。

由此可見,無論是在物理環(huán)境中的容災(zāi),還是云容災(zāi),都要對癥下藥,針對客戶的不同需求和保護(hù)等級采用合理的容災(zāi)解決方案。

張權(quán)深有同感:”災(zāi)備這個話題比較復(fù)雜,針對不同類型和需求的客戶,解決方案和實施策略可能是不同的。其實,災(zāi)難恢復(fù),不管是采用傳統(tǒng)的架構(gòu),還是采用云,其核心問題都是數(shù)據(jù)的復(fù)制。數(shù)據(jù)復(fù)制一定要及時、有效、可靠,這樣才能談得上有效恢復(fù)。“

“相比傳統(tǒng)的災(zāi)備,云災(zāi)備更加復(fù)雜,數(shù)據(jù)復(fù)制也更麻煩,尤其是對于那些大型的擁有比較復(fù)雜的IT架構(gòu)的客戶來說更是如此。”張權(quán)告訴記者,“針對一些系統(tǒng)比較簡單、數(shù)據(jù)量不太大的中小用戶,市場上有很多適合的災(zāi)備解決方案,可以實現(xiàn)數(shù)據(jù)級或應(yīng)用級的災(zāi)備。當(dāng)然,實現(xiàn)應(yīng)用級的災(zāi)備相對復(fù)雜一些。”

“未來,當(dāng)云計算普及后,云災(zāi)備這個概念可能就沒有了,因為所有的業(yè)務(wù)上云后,業(yè)務(wù)的安全性、可用性可能要從云的整體系統(tǒng)架構(gòu)的層次來考慮。”張權(quán)認(rèn)為,AWS在這方面做得比較好,其同城三節(jié)點的部署方式就是從提高安全性和可用性的角度出發(fā)設(shè)計的?,F(xiàn)在,越來越多的IaaS服務(wù)商向PaaS領(lǐng)域擴展,涉及的系統(tǒng)和應(yīng)用可能會更多更復(fù)雜,如果想做應(yīng)用級的災(zāi)備,實現(xiàn)難度也會更大。

延伸閱讀

今天是個特別的日子——“3·15”。不知你是否注意到了,現(xiàn)在爆出的云服務(wù)宕機的消息,很少談及服務(wù)商是如何對受損的用戶進(jìn)行賠償?shù)摹?/p>

在2015年7月30日舉行的可信云服務(wù)大會上,主辦方宣布,可信云服務(wù)工作已經(jīng)引入云保險增信機制,其目的是利用技術(shù)和金融手段相結(jié)合的方式解決云服務(wù)面臨的宕機和數(shù)據(jù)丟失的風(fēng)險。云保險的第一批試點工作也已經(jīng)展開。首批試點服務(wù)商之一萬國數(shù)據(jù)已經(jīng)與保險公司合作提供云保險服務(wù),這也是除技術(shù)保障以外,從商務(wù)上更好地保護(hù)用戶利益的一種有效措施。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號