錯誤不可避免,而且在云端,逐漸變得可以為人們所接受。上個月在一些最大的提供商上演了新一輪的云宕機(jī)事件,但是似乎這些意外事件并未影響公眾對于云計算的認(rèn)知。根據(jù)分析師的說法,客戶逐漸將宕機(jī)事件看作是不可避免的,而且廠商也逐漸對于其系統(tǒng)失敗采取更加透明的態(tài)度。
Gartner分析師Lydia Leong表示,企業(yè)隨時都會有宕機(jī),沒人期望云提供商是完美的,而且云提供商也沒期望自己就是完美的。
Cloud Technology Partners的高級副總裁David Linthicum認(rèn)為,冗余系統(tǒng)、災(zāi)難恢復(fù)和故障修復(fù)計劃并非新鮮事物,而且IT人員開始清醒地意識到,在云端也沒有什么差別。Linthicum指出:“這和多年前我們在內(nèi)部系統(tǒng)中所做的事情相同,大家只是更加明白了這一點(diǎn)。”
上個月,亞馬遜Web服務(wù)(AWS)遭遇了區(qū)域連接問題,以及其虛擬私有云的應(yīng)用程序接口錯誤率大約為一小時,同時Rackspace的客戶在五月份嘗試針對云塊存儲創(chuàng)建大容量規(guī)模時出現(xiàn)了間歇性的可用性問題。
重大的宕機(jī)會消耗企業(yè)成本,降低客戶滿意度,但是廠商已經(jīng)理解了需要同客戶就宕機(jī)進(jìn)行實(shí)時的溝通。
Joyent云宕機(jī)
位于舊金山的云提供商Joyent可能是五月份最尷尬的云宕機(jī),該公司的一位管理員同時重啟了其東海岸區(qū)域的所有虛擬服務(wù)器。隨后恢復(fù)的用時大約在20分鐘和兩個多小時。
這次失敗歸因于人工操作錯誤,該公司提供了事件剖析,概述了切向的編譯問題(the compilation of tangential issues),這個問題可以讓一個員工忽略兩個字符,從而“干掉”了整個數(shù)據(jù)中心。
失敗已經(jīng)發(fā)生,但是提供商敢于承認(rèn)錯誤,并且進(jìn)行修正,Joyent CTO Bryan Cantrill在采訪中談到。
“大家都理解人工錯誤,因?yàn)槲覀兌荚诜醋?rdquo;Cantrill說道,“但是他們不理解且不應(yīng)該理解的模糊、隱晦和靜默。”令高管們驚訝的是,大多數(shù)的反饋是積極的。也有客戶抱怨,但是遠(yuǎn)遠(yuǎn)小于預(yù)期的,Cantrill談到并沒有企業(yè)要求終止合約,“這種極不正常的方式加強(qiáng)了我們同客戶之間的關(guān)系。”
Linthicum認(rèn)為,云提供商可能更適合處理宕機(jī),因?yàn)樗麄兪瞧浜诵臉I(yè)務(wù)模型的中央。他使用了業(yè)余時間宕機(jī)的例子,內(nèi)部系統(tǒng)要求IT人員下班后返回辦公室來解決問題,但是云提供商可以持續(xù)的有人來處理這個問題。
Linthicum指出,云宕機(jī)也比很多專家預(yù)期的問題要少很多,他還沒聽說過任何云提供商有重大的客戶數(shù)據(jù)丟失問題。但是這種對于云宕機(jī)的感知可能是產(chǎn)業(yè)區(qū)域性的。
Leong說:“我們很容易看到云宕機(jī),提供商會說‘太糟糕了。’企業(yè)通常將云提供商宕機(jī)看作是整個產(chǎn)業(yè)的象征,相反如果是一次性的事件就沒有這么大的而影響。”
Technology Business Research的分析師Matthew Healey表示,一些期望可能不公平,但是沒人責(zé)備廠商,只能自認(rèn)倒霉。“他們站出來說‘我們非??煽?rsquo;,現(xiàn)在他們創(chuàng)造了一些標(biāo)準(zhǔn)卻不遵守。”
公有云的吸引力在企業(yè)間不斷增加,雖然在現(xiàn)有基礎(chǔ)架構(gòu)中仍存在持續(xù)的安全和投資擔(dān)憂。雖然宕機(jī)可能不是主要的原因,但是對于一些IT人員而言卻是絆腳石。Healey使用了飛機(jī)和汽車的類比。雖然飛機(jī)旅行更為安全,但是人們用汽車會感覺更加腳踏實(shí)地。
為不可避免的結(jié)果做準(zhǔn)備
雖然宕機(jī)不可避免,但是IT人員不應(yīng)該盲目進(jìn)入云端??煽康膫浞菹到y(tǒng)、故障修復(fù)和意外事故計劃是必須的,就像成本分析必須定期進(jìn)行一樣。傳統(tǒng)IT外包合同涉及了法律團(tuán)隊,和數(shù)千頁的法律語言,Healey說,同樣的云合同也遠(yuǎn)遠(yuǎn)不夠完善。
“云合同也處于發(fā)展階段,因此我覺得正在做的更好,但是并沒有解決所有的問題,”Healey說,“在解決這些問題的過程中會面臨更多的痛點(diǎn)。”
云提供商服務(wù)水平協(xié)議通常提供每月的計算可用性為99.95%或者更高,而且針對宕機(jī)的服務(wù)信用通常和宕機(jī)持續(xù)時間劃等號。
Cantrill并未揭露宕機(jī)會消耗公司多少成本。他說這一點(diǎn)顯而易見,但是他不期望看到長期上出現(xiàn)一些財務(wù)衍生問題。Cantrill說:”如果我們的客戶感到迷失或者受騙,很明顯他們就并不會進(jìn)入公有云了,如果能夠透明且快速的解決,可以加速人們對于云計算的采用,因?yàn)槿藗冎揽梢杂兴WC。“