在云計(jì)算風(fēng)起云涌的大背景下,用戶熱衷于選擇IaaS基礎(chǔ)設(shè)施服務(wù),主要原因是什么?無需單獨(dú)購買服務(wù)器等硬件資源,直接在所購買的云平臺(tái)部署應(yīng)用環(huán)境,省去了大量的IT基礎(chǔ)投資,也可以隨時(shí)獲取更彈性的擴(kuò)展資源。簡單的說,就是簡單、方便、可靠、成本低。
那么,選擇了云主機(jī),是不是云服務(wù)的穩(wěn)定性和可用性就有保證了?用戶就可以高枕無憂了?如果你這么認(rèn)為,那么就大錯(cuò)特錯(cuò)了。
云主機(jī)非常態(tài)宕機(jī)下的用戶常態(tài)反映
從理論上說,云主機(jī)是在一組集群服務(wù)器上劃分出的多個(gè)類似獨(dú)立主機(jī)的部分,集群中的每臺(tái)機(jī)器都有云主機(jī)的一個(gè)鏡像備份。當(dāng)其中一臺(tái)機(jī)器出現(xiàn)故障時(shí),系統(tǒng)會(huì)自動(dòng)訪問其他機(jī)器上的備份。所以云主機(jī)在數(shù)據(jù)安全、運(yùn)行穩(wěn)定性方面比傳統(tǒng)的VPS和服務(wù)器更強(qiáng),而且因?yàn)樗翘摂M的,費(fèi)用比獨(dú)立服務(wù)器要便宜得多,所以云主機(jī)性價(jià)比還是很高的。
然而云主機(jī)因?yàn)楦鞣N原因出現(xiàn)意外故障而死機(jī)的現(xiàn)象卻時(shí)有發(fā)生。今年6月6日,青云的服務(wù)商睿江科技機(jī)房因雷暴天氣引發(fā)電力故障,導(dǎo)致青云廣東1區(qū)全部硬件設(shè)備意外關(guān)機(jī)重啟,青云官網(wǎng)及控制臺(tái)短時(shí)無法訪問,部署于GD1的用戶業(yè)務(wù)暫時(shí)不可用。6月21日,阿里云香港節(jié)點(diǎn)出現(xiàn)全線宕機(jī),業(yè)務(wù)中斷超過12小時(shí),甚至有部分用戶數(shù)據(jù)出現(xiàn)損毀,在業(yè)界引發(fā)軒然大波。
而在國外,云主機(jī)宕機(jī)事件一樣觸目驚心。單單2014年8月,全球發(fā)生了幾起大范圍的宕機(jī)事件,為這些云服務(wù)商帶來了巨大損失:AWS先后發(fā)生兩次宕機(jī),導(dǎo)致其損失700萬美元;蘋果iCloud宕機(jī)致使300萬用戶受到影響;谷歌全面宕機(jī),5分鐘全球流量下降40%。
縱觀國內(nèi)外云主機(jī)宕機(jī)的情況,宕機(jī)的原因可以說是非常態(tài)的,是各種各樣的客觀因素造成的,絕大多數(shù)是不可控的。但是對(duì)用戶的影響卻是致命的,損失巨大,即使中斷1分鐘客戶都是難以忍受的,客戶無法接受宕機(jī)以及其造成的損失卻是常態(tài)的。
實(shí)時(shí)監(jiān)控 及時(shí)預(yù)警
云主機(jī)宕機(jī)的元兇是包括CPU、內(nèi)存、硬盤在內(nèi)的服務(wù)器硬件以及引起服務(wù)器故障的機(jī)房設(shè)施。遠(yuǎn)離宕機(jī),除了云主機(jī)服務(wù)商采用必要保證措施以外,有沒有第三方機(jī)構(gòu)對(duì)云主機(jī)的性能進(jìn)行評(píng)測,讓用戶對(duì)云主機(jī)穩(wěn)定性和可用性有一個(gè)客觀的認(rèn)知呢?答案是肯定的。中國軟件網(wǎng)、海比研究與國內(nèi)領(lǐng)先的應(yīng)用性能管理服務(wù)商云智慧公司合作,針對(duì)目前市場上主流的服務(wù)商的云主機(jī),在業(yè)內(nèi)首次推出云主機(jī)性能評(píng)測報(bào)告。
此次性能評(píng)測覆蓋了百度云、美團(tuán)云、騰訊云、金山云、阿里云、青云、西部數(shù)碼、首都在線、ucloud、華為云、天翼云、安暢網(wǎng)絡(luò)、沃云等目前市場上國內(nèi)主流云服務(wù)商。此次評(píng)測采用了統(tǒng)一的硬件配置,所選擇的云主機(jī)基礎(chǔ)硬件環(huán)境均為8核CPU(騰訊、美團(tuán)、青云為虛擬機(jī)CPU)、8GB內(nèi)存、2M帶寬,系統(tǒng)為Linux 2.6.32的64位版本。通過云智慧監(jiān)控寶部署在全國范圍的數(shù)百個(gè)監(jiān)測點(diǎn),真實(shí)模擬用戶訪問行為,對(duì)云主機(jī)性能從服務(wù)器監(jiān)控、網(wǎng)站監(jiān)控等維度進(jìn)行全方位檢測。
此次評(píng)測中服務(wù)器性能監(jiān)控是指針對(duì)服務(wù)器系統(tǒng)的運(yùn)行狀態(tài)以及各項(xiàng)指標(biāo)的監(jiān)控,是的包括CPU平均使用率、CPU負(fù)載、內(nèi)存平均使用率、磁盤I/O寫入平均流量、磁盤I/O讀取平均流量等。7月6日當(dāng)天監(jiān)測數(shù)據(jù)如下表所示。
怎么看這些數(shù)據(jù)呢?正常的服務(wù)器工作狀態(tài)是CPU使用率在50%-60%之間,內(nèi)存在50%-70%之間,超過這個(gè)極限值,運(yùn)維人員就需特別關(guān)注,且要發(fā)出預(yù)警。CPU負(fù)載就是CPU的工作量,多核CPU能夠并行處理的事務(wù)的數(shù)量應(yīng)該是個(gè)數(shù)與核數(shù)的乘積,CPU的負(fù)載數(shù)最好不要超過這個(gè)數(shù)值。CPU負(fù)載太高,即目前工作量已經(jīng)接近于CPU的最大計(jì)算能力了,應(yīng)該發(fā)出預(yù)警。而硬盤I/O是云主機(jī)性能的最大瓶頸,它不僅會(huì)影響高并發(fā)時(shí)服務(wù)器的響應(yīng)速度,更會(huì)對(duì)數(shù)據(jù)庫性能的產(chǎn)生影響。當(dāng)I/O性能大幅降低時(shí),應(yīng)該及時(shí)發(fā)出預(yù)警,進(jìn)行必要的干預(yù)。
目前,云智慧的監(jiān)控寶可以根據(jù)服務(wù)等級(jí)協(xié)議設(shè)置告警,只要指標(biāo)超過設(shè)定值,監(jiān)控寶就可以第一時(shí)間向用戶發(fā)送告警通知。監(jiān)控寶覆蓋的告警通知方式包括郵件、短信、App Push、電話語音、URL回調(diào)通知等。
在本次評(píng)測中,我們在國內(nèi)主要的服務(wù)商的云主機(jī)上都部署監(jiān)控寶,分別對(duì)其以上指標(biāo)做了詳細(xì)的采集和數(shù)據(jù)分析,用真實(shí)的數(shù)據(jù)向外界展示了當(dāng)前國內(nèi)的云服務(wù)商的運(yùn)行質(zhì)量,是用戶選擇合適的云主機(jī)提供商、杜絕宕機(jī)、減少損失的可靠參考。