此次事件以阿里云給出賠償方案而告終,但留給人們的思考卻在持續(xù)——隨著云服務(wù)應(yīng)用領(lǐng)域愈發(fā)廣泛,云廠商一次短時宕機(jī)事故,產(chǎn)生的影響也是空前巨大的,金融術(shù)語“雞蛋不要放在一個籃子里”放在云領(lǐng)域是否也廣泛適用?如何減少因為云服務(wù)的不確定性對業(yè)務(wù)造成的影響?“多云戰(zhàn)略”究竟有多大價值?下面我們來展開討論。
當(dāng)宕機(jī)無法預(yù)估,降低風(fēng)險將成為常態(tài)
據(jù)不完全統(tǒng)計,阿里云近年來幾乎每年都有發(fā)生較為嚴(yán)重的宕機(jī)事件:2012年10月30日,由于電力故障,阿里云部分服務(wù)器30余分鐘無法正常訪問;2013年1月23日,阿里云發(fā)生網(wǎng)絡(luò)系統(tǒng)故障,OSS服務(wù)無法正常進(jìn)行,故障持續(xù)長達(dá)6小時。2014年11月14日,阿里云杭州可用區(qū)D網(wǎng)絡(luò)故障;2015年9月1日,因云盾升級觸發(fā)bug,導(dǎo)致文件被系統(tǒng)誤刪;2016年7月6日,阿里云北京機(jī)房內(nèi)網(wǎng)發(fā)生故障,導(dǎo)致大量互聯(lián)網(wǎng)公司業(yè)務(wù)受到影響;2018年6月27日,阿里云出現(xiàn)大規(guī)模訪問異常……
作為行業(yè)老二的騰訊云,近年來并未好到哪里去。2016年7月30日上午,有不少微信用戶投訴,稱無論是重啟手機(jī)、卸載重裝、清空內(nèi)存等動作,都無法登陸賬號,對此騰訊回應(yīng)稱,確系騰訊云發(fā)生故障。2017年5月24日,有用戶反應(yīng)稱賬號下的機(jī)器受到大流量DDOS攻擊被封號。隨后騰訊云發(fā)布道歉公告稱”用戶所受到的實(shí)時攻擊已經(jīng)超出騰訊云為用戶提供的基礎(chǔ)防護(hù)服務(wù)的上限。2018年8月15日,有企業(yè)反饋其在騰訊云上的數(shù)據(jù)丟失,該公司就此次故障對騰訊云提出了高達(dá)11,016,000元的索賠要求。
盡管云服務(wù)商均出現(xiàn)過較為嚴(yán)重的宕機(jī)經(jīng)歷,但需要指出的一個事實(shí)是:無論是從理論研究層面,亦或是實(shí)踐運(yùn)行中,云廠商提供的公有云服務(wù),以普遍高達(dá)99.95%的SLA,還是要比絕大多數(shù)用戶自建機(jī)房可靠性要更高,出現(xiàn)故障更多是非人為因素或是一些極小概率事件導(dǎo)致,不必因此“諱疾忌醫(yī)”覺得公有云不安全。我們需要做的,就是在風(fēng)險來臨前,將其發(fā)生的概率盡可能降低,而通過接入多家云廠商,來盡可能減少對單一廠商的依賴,從而分散風(fēng)險,提高業(yè)務(wù)的可持續(xù)性,成為解決方式之一。
“多云戰(zhàn)略”的歷史必然性:風(fēng)險分擔(dān)與優(yōu)勢互補(bǔ)
本次宕機(jī)事件后,如何預(yù)防服務(wù)中斷、避免關(guān)鍵數(shù)據(jù)丟失成為大家關(guān)注的重點(diǎn),“多云戰(zhàn)略”再一次成了業(yè)界的焦點(diǎn)話題。所謂“多云戰(zhàn)略”,指的是企業(yè)同時采用兩家或以上的云服務(wù)供應(yīng)商,并且在多個云之間部署熱切換系統(tǒng)。這樣當(dāng)任何一家云服務(wù)商出現(xiàn)運(yùn)行故障時,企業(yè)的關(guān)鍵應(yīng)用和核心數(shù)據(jù),就能迅速切換到其他云服務(wù)商的設(shè)施上繼續(xù)運(yùn)行。
采用“多云戰(zhàn)略”,同時在多家云服務(wù)商購買云計算資源和服務(wù),將IT資源分散部署到多個云平臺,其好處顯而易見,通過在多家供應(yīng)商提供的解決方案中發(fā)掘潛在的服務(wù)質(zhì)量、能力或價格優(yōu)勢,可以根據(jù)云廠商的情況隨時拓展或者變更,不再受限于廠商,也能夠顯著提高業(yè)務(wù)安全性和和分散風(fēng)險。
多云這一趨勢也得到了市場的驗證。據(jù)RightScale發(fā)布的2018年云計算調(diào)查報告顯示,81%的受訪企業(yè)采用了多云策略。而據(jù)IDC的預(yù)測數(shù)據(jù),到2020年9成以上的企業(yè)都會采用“多云”來構(gòu)建基礎(chǔ)IT能力。企業(yè)選擇多家云服務(wù)商來滿足他們的IT需求,已經(jīng)變得越來越普遍,通過采用多家云廠商,實(shí)現(xiàn)風(fēng)險分擔(dān)并充分發(fā)揮各家云廠商的技術(shù)優(yōu)勢,從而獲得更好的服務(wù),這也符合客戶的利益訴求。
將核心數(shù)據(jù)、重要業(yè)務(wù)分散部署在多個云廠商,這一“雞蛋放在多個籃子里”的做法,其實(shí)是“老生常談”,但過去多數(shù)企業(yè)并沒有真正重視起來,近年來的各類宕機(jī)事件,在提醒企業(yè)管理層的同時,也讓“多云戰(zhàn)略”被真正放到了實(shí)踐層面。對此,建議用戶在選擇云廠商時,盡量選擇業(yè)務(wù)經(jīng)過規(guī)?;炞C的云服務(wù)商,如采用了阿里云,可同時選用騰訊云、百度云、金山云等作為互補(bǔ),從互聯(lián)網(wǎng)業(yè)務(wù)起家的云廠商,其公有云實(shí)力不容置疑,畢竟是打過硬仗的,即使發(fā)生宕機(jī),完備的容災(zāi)機(jī)制,也能讓損失降低到最低范圍。
從歐美國家云計算發(fā)展經(jīng)驗來看,基于IT系統(tǒng)的復(fù)雜性和對可靠性的高要求,企業(yè)在選擇云廠商時,更傾向于選擇經(jīng)過大規(guī)模業(yè)務(wù)實(shí)踐驗證過的云服務(wù)商,亞馬遜AWS、微軟Azure云等都是久經(jīng)業(yè)務(wù)場景考驗的云服務(wù),也是往往企業(yè)最核心的選擇之一,而包括IBM、Oracle等IT廠商轉(zhuǎn)型做云服務(wù)的企業(yè),因為缺乏實(shí)際業(yè)務(wù)場景驗證,其云服務(wù)水平并不如意。
放眼國內(nèi),包括阿里云、騰訊云、百度云、金山云等一批在互聯(lián)網(wǎng)海量業(yè)務(wù)場景中歷練而出的云服務(wù)商,具備優(yōu)良的容備災(zāi)和大規(guī)模業(yè)務(wù)部署能力,其抗風(fēng)險性更強(qiáng),“多云戰(zhàn)略”時,可以重點(diǎn)關(guān)注。最后,站在用戶的角度而言,面向未來更加復(fù)雜多變的業(yè)務(wù)場景,云廠商之間相互協(xié)同,共同抵御風(fēng)險,站在同一“戰(zhàn)壕”里協(xié)同作戰(zhàn),也未嘗不可。