IT巨頭故障大盤點(diǎn) 不堪重負(fù)的服務(wù)器

責(zé)任編輯:vivian

2012-06-12 10:02:57

摘自:51CTO

上周,有媒體爆料,谷歌Gmail網(wǎng)絡(luò)郵件服務(wù)再次發(fā)生中斷事件,導(dǎo)致Gmail服務(wù)中斷了90多分鐘。

上周,有媒體爆料,谷歌Gmail網(wǎng)絡(luò)郵件服務(wù)再次發(fā)生中斷事件,導(dǎo)致Gmail服務(wù)中斷了90多分鐘。不過(guò),谷歌坦誠(chéng)地公布了這一消息,承認(rèn)在美國(guó)東部時(shí)間周四上午11點(diǎn),發(fā)生了這樣的故障并且宣布它在12點(diǎn)40分解決了這個(gè)問(wèn)題。

據(jù)了解,谷歌稱這個(gè)故障影響到1.38%的Gmail用戶。目前據(jù)統(tǒng)計(jì),Gmail擁有3.5億活躍用戶。假如這個(gè)故障影響到1.38%的活躍用戶,那么,這個(gè)數(shù)字就是大約479萬(wàn)。受影響的用戶不能訪問(wèn)谷歌Gmail賬戶。

可以斷定,這不是IT巨頭第一次出現(xiàn)網(wǎng)絡(luò)故障,也肯定不是最后一次。

2012年谷歌網(wǎng)絡(luò)服務(wù)再中斷

在上周初,谷歌也發(fā)生Spreadsheets服務(wù)發(fā)生了大約兩個(gè)小時(shí)的故障,許多用戶受到影響。這個(gè)故障是當(dāng)用戶試圖打開一個(gè)文件的時(shí)候,屏幕上頻繁地顯示驗(yàn)證碼。并且,在2012年的四月中旬,谷歌同樣是Gmail服務(wù)也曾發(fā)生一次故障,那一次影響的面積更大,影響到3300多萬(wàn)用戶。

另外,在2011年3月,谷歌郵箱再次爆發(fā)大規(guī)模的用戶數(shù)據(jù)泄漏事件,大約有15萬(wàn)Gmail用戶在周日早上發(fā)現(xiàn)自己的所有郵件和聊天記錄被刪除,部分用戶發(fā)現(xiàn)自己的帳戶被重置,谷歌表示受到該問(wèn)題影響的用戶約為用戶總數(shù)的0.08%.

谷歌在Google Apps狀態(tài)頁(yè)面表示:“部分用戶的Google Mail服務(wù)已經(jīng)恢復(fù)過(guò)來(lái),我們將在近期拿出面向所有用戶的解決方案。”它還提醒受影響的用戶說(shuō):“在修復(fù)帳戶期間,部分用戶可能暫時(shí)無(wú)法登錄郵箱服務(wù)。”

Google過(guò)去也曾出現(xiàn)故障,但整個(gè)帳戶消失卻是第一次。在2009年出現(xiàn)最嚴(yán)重的一次故障,有兩個(gè)半小時(shí)服務(wù)停頓,許多人當(dāng)時(shí)曾向Google投訴需用這個(gè)系統(tǒng)工作。接二連三出錯(cuò),令全球用戶數(shù)小時(shí)不能收發(fā)電郵。Google及微軟等科技企業(yè)近年大力發(fā)展云計(jì)算,盼吸引企業(yè)客戶,但云計(jì)算儲(chǔ)存多次出事,恐打擊用戶信心。

早在2009年2月24日,谷歌的Gmail電子郵箱爆發(fā)全球性故障,服務(wù)中斷時(shí)間長(zhǎng)達(dá)4小時(shí)。谷歌解釋事故的原因:在位于歐洲的數(shù)據(jù)中心例行性維護(hù)之時(shí),有些新的程序代碼(會(huì)試圖把地理相近的數(shù)據(jù)集中于所有人身上)有些副作用,導(dǎo)致歐洲另一個(gè)資料中心過(guò)載,于是連鎖效應(yīng)就擴(kuò)及到其它數(shù)據(jù)中心接口,最終釀成全球性的斷線,導(dǎo)致其他數(shù)據(jù)中心也無(wú)法正常工作。

事件過(guò)去數(shù)日之后,Google宣布針對(duì)這一事件,谷歌向企業(yè)、政府機(jī)構(gòu)和其他付費(fèi)GoogleAppsPremier Edition客戶提供15天免費(fèi)服務(wù),補(bǔ)償服務(wù)中斷給客戶造成的損失,每人合計(jì)2.05美元。

遭遇這樣悲慘命運(yùn)的不僅只有谷歌一個(gè),例如,亞馬遜、谷歌、Salesforce.com等一些云服務(wù)提供商都有過(guò)類似的衰事。

亞馬遜云安全事件。

2011年4月21日凌晨,亞馬遜公司在北弗吉尼亞州的云計(jì)算中心宕機(jī),這導(dǎo)致包括回答服務(wù)Quora、新聞服務(wù)Reddit、Hootsuite和位置跟蹤服務(wù)FourSquare在內(nèi)的一些網(wǎng)站受到了影響。

這些網(wǎng)站都依靠亞馬遜的這個(gè)云計(jì)算中心提供服務(wù)。Quora網(wǎng)站周四上午和下午在英國(guó)都無(wú)法訪問(wèn)。這個(gè)網(wǎng)站完全由亞馬遜的EC2(彈性云計(jì)算)服務(wù)托管,就像FourSquare和許多其它網(wǎng)站一樣。

受到影響,Hootsuite網(wǎng)站的響應(yīng)速度很慢,而Reddit網(wǎng)站的搜索服務(wù)不能使用。Reddit網(wǎng)站稱,亞馬遜目前正出現(xiàn)服務(wù)下降的情況。亞馬遜云服務(wù)中斷持續(xù)將近4天,截止編者發(fā)稿時(shí),Hootsuite、Reddit、FourSquare、Quora等網(wǎng)站已經(jīng)基本恢復(fù)正常。

根據(jù)分析,亞馬遜的云計(jì)算狀態(tài)網(wǎng)頁(yè)目前顯示故障發(fā)生在北弗吉尼亞州的云計(jì)算中心。這個(gè)中心為許多Web 2.0公司提供服務(wù)。這次宕機(jī)故障發(fā)生在美國(guó)西海岸的大約凌晨1點(diǎn)40分,英國(guó)夏令時(shí)上午9點(diǎn)40分,并且從那時(shí)起一直有故障。

分析人士稱,北弗吉尼亞州云計(jì)算中心是亞馬遜經(jīng)營(yíng)的許多云計(jì)算中心之一,按照常規(guī),系統(tǒng)的設(shè)計(jì)之處應(yīng)用會(huì)考慮,一個(gè)中心宕機(jī)不會(huì)中斷其它的云計(jì)算中心,也不會(huì)影響使用那個(gè)服務(wù)的用戶。

此次,亞馬遜云計(jì)算中心沒(méi)有繞過(guò)北弗吉尼亞州云計(jì)算中心的故障把工作量轉(zhuǎn)移到許多其它的云計(jì)算中心,令人生疑。服務(wù)器宕機(jī),這在人們預(yù)想當(dāng)中,沒(méi)有那么嚴(yán)重。最簡(jiǎn)單的,雙機(jī)熱備,一臺(tái)服務(wù)器宕機(jī),另外一臺(tái)服務(wù)器在短時(shí)間內(nèi)可以啟動(dòng),并不會(huì)影響用戶的服務(wù)。但是,亞馬遜的云計(jì)算中心這次不同,宕機(jī)影響了這么多用戶的正常云服務(wù),而且引起用戶服務(wù)中斷的,還是亞馬遜引以為傲的彈性云,這對(duì)于云計(jì)算服務(wù)商剛剛建立起來(lái)的信任,絕對(duì)是一次沉重的打擊。

經(jīng)過(guò)一番緊急的搶救,亞馬遜的云服務(wù)恢復(fù)了正常。但是,這個(gè)事件留給用戶的惡劣影響有些深遠(yuǎn),用戶大呼“傷不起”.

好在亞馬遜的態(tài)度還算坦誠(chéng)。4月30日,亞馬遜為宕機(jī)事件向用戶發(fā)表了5700多字的道歉信,聲稱亞馬遜公司已經(jīng)知道漏洞和設(shè)計(jì)缺陷所在的地方,它希望通過(guò)修復(fù)那些漏洞和缺陷提高EC2(亞馬遜ElasticComputeCloud服務(wù))的競(jìng)爭(zhēng)力。亞馬遜已經(jīng)對(duì)EC2做了一些修復(fù)和調(diào)整,并打算在未來(lái)幾周里擴(kuò)大部署,以便對(duì)所有的服務(wù)進(jìn)行改善,避免類似的事件再度出現(xiàn)。

在賠償方面,亞馬遜表示,將向在此次故障中受到影響的用戶提供10天服務(wù)的點(diǎn)數(shù)(Credit),這些點(diǎn)數(shù)將自動(dòng)充值到受影響的用戶帳號(hào)當(dāng)中。但是,對(duì)于以后如何避免出現(xiàn)類似事件,并沒(méi)有提到任何法律上的保證。

據(jù)了解,亞馬遜云服務(wù)中斷持續(xù)了近4天,但是在法律上卻沒(méi)有違反亞馬遜EC2服務(wù)的服務(wù)等級(jí)協(xié)議(簡(jiǎn)稱SLA)。亞馬遜的解釋是,亞馬遜出現(xiàn)故障的是EBS和RDS服務(wù),而不是EC2服務(wù),從法律上講,它并沒(méi)有違反服務(wù)等級(jí)協(xié)議。并且,對(duì)于亞馬遜提出的應(yīng)對(duì)宕機(jī)事件的建議--多點(diǎn)備份,僅僅是一個(gè)技術(shù)規(guī)范并非合同保障。這些,似乎都不能給云服務(wù)的用戶帶來(lái)信心。

表面看來(lái),亞馬遜宕機(jī)事件似乎有一個(gè)完美結(jié)局:廠商及時(shí)修復(fù)漏洞,書面道歉,賠償損失。但是,用戶心理上對(duì)云服務(wù)的恐懼似乎并不那么容易康復(fù),未來(lái),亞馬遜可能不僅僅要在技術(shù)上、還需要在制度和法律上給予用戶更多的保證,才能才能漸漸修復(fù)被此次宕機(jī)事件損壞的名聲。

Rackspace云服務(wù)中斷事件

2009年6月,Rackspace遭受了嚴(yán)重的云服務(wù)中斷故障。供電設(shè)備跳閘,備份發(fā)電機(jī)失效,不少機(jī)架上服務(wù)器停機(jī)。這場(chǎng)事故造成了嚴(yán)重的后果。

為了挽回公司聲譽(yù),Rackspace更新了所有博客,并在其中詳細(xì)討論了整個(gè)經(jīng)過(guò)。但用戶并不樂(lè)意接受。

同年11月,Rackspace再次發(fā)生重大的服務(wù)中斷后。事實(shí)上,它的用戶是完全有機(jī)會(huì)在服務(wù)中斷后公開指責(zé)這位供應(yīng)商的,但用戶卻表示“該事故并不是什么大事。”看來(lái)Rackspace不是走好運(yùn),而是持續(xù)提供了充足更新并快速修復(fù)了這些錯(cuò)誤。

在服務(wù)中斷致使其業(yè)務(wù)脫機(jī)15到20分鐘后,博客服務(wù)提供商Posterous的創(chuàng)建者之一Sachin Agarwal就發(fā)表了自己的觀點(diǎn)。Agarwal對(duì)此并不生氣,相反,他表示Rackspace在這件事上做得“很透明”,處理問(wèn)題也很及時(shí)到位。

看來(lái),如果沒(méi)有嚴(yán)重?cái)?shù)據(jù)的丟失,并且服務(wù)快速恢復(fù),用戶依舊保持愉快的使用體驗(yàn)。對(duì)于所謂的“100%正常運(yùn)行”,大多數(shù)用戶似乎不會(huì)因?yàn)榕紶柕男∈鹿识艞壒?yīng)商,只是不要將問(wèn)題堆積起來(lái)。

Salesforce.com服務(wù)器宕機(jī)。

2010年1月,幾乎6萬(wàn)8千名的Salesforce.com用戶經(jīng)歷了至少1個(gè)小時(shí)的服務(wù)器宕機(jī)。

Salesforce.com由于自身數(shù)據(jù)中心的“系統(tǒng)性錯(cuò)誤”,包括備份在內(nèi)的全部服務(wù)發(fā)生了短暫癱瘓的情況。這也露出了Salesforce.com不愿公開的鎖定策略:旗下的PaaS平臺(tái)、Force.com不能在Salesforce.com之外使用。所以一旦Salesforce.com出現(xiàn)問(wèn)題,F(xiàn)orce.com同樣會(huì)出現(xiàn)問(wèn)題。所以服務(wù)發(fā)生較長(zhǎng)時(shí)間中斷,問(wèn)題將變得很棘手。

這場(chǎng)服務(wù)中斷還沒(méi)有對(duì)公司造成很大影響,它同VMware合作的VMforce在今年春季引起很大反響,同時(shí)Salesforce.com首席執(zhí)行官在服務(wù)中斷出現(xiàn)后的一個(gè)月內(nèi)又開始宣稱Salesforce.com是“最大的云計(jì)算企業(yè)”.

這次中斷事故讓人們開始質(zhì)疑Salesfore.com的軟件鎖定行為,即將該公司的Force.com平臺(tái)綁定到Salesforce.com自身的服務(wù)。但總之,這次事件只是又一次地提醒人們:百分之百可靠的云計(jì)算服務(wù)目前還不存在。

小結(jié):早在2010年5月份,埃森哲與中國(guó)電子學(xué)會(huì)共同發(fā)布了一份名為《中國(guó)云計(jì)算發(fā)展的務(wù)實(shí)之路》的報(bào)告。報(bào)告指出,安全問(wèn)題是全球?qū)υ朴?jì)算最大的質(zhì)疑。而這種擔(dān)憂在中國(guó)尤為突出,“以至于首席信息官們?nèi)缏谋”貏e是面對(duì)公有云服務(wù)時(shí)”.

云安全問(wèn)題一直是全球政府和企業(yè)都較為頭痛的難題,如果能夠跨越這一關(guān),那么,云服務(wù)則能夠順利地得到大范圍應(yīng)用,反之則止步不前。所以,可以斷定宕機(jī)事件的發(fā)生,在很大程度上,將使得其在全球特別是在中國(guó)推廣云服務(wù)業(yè)務(wù)更加困難。這正是,國(guó)內(nèi)很多企業(yè)和政府更加相信私有云的安全性。

但是,如果僅僅從這些云服務(wù)宕機(jī)事件,就得出結(jié)論:云計(jì)算一無(wú)是處,不該被推廣!這似乎有些太過(guò)于武斷。安全事件,并不僅僅是云計(jì)算的專利,任何IT系統(tǒng)都將承受來(lái)自安全方面的壓力,不管是來(lái)自于天災(zāi),還是人禍。

宕機(jī)事件使得人們進(jìn)一步思考,公有云面臨的安全問(wèn)題。盡管公共云擁有眾所周知的成本優(yōu)勢(shì),但是用戶不得不提防其存在的安全性、法規(guī)遵從和服務(wù)質(zhì)量的隱患。既然數(shù)據(jù)由第三方托管,客戶就希望服務(wù)提供商保證數(shù)據(jù)安全,既不丟失也不被非法訪問(wèn),遵從法規(guī)對(duì)存儲(chǔ)系統(tǒng)和數(shù)據(jù)保存位置的要求,并通過(guò)網(wǎng)絡(luò)提供低延遲、高可用的服務(wù)。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)