防止基礎(chǔ)設(shè)施停運(yùn)的四個(gè)步驟

責(zé)任編輯:editor005

作者:布加迪編譯

2015-08-03 15:07:48

摘自:51CTO

我們過(guò)著忙碌的日子,這讓大家都毫無(wú)耐心可言;需要多個(gè)步驟的私人任務(wù)會(huì)讓人覺(jué)得難以對(duì)付。美國(guó)西南航空公司在今年6月初遇到了網(wǎng)站速度變慢持續(xù)多日的故障,當(dāng)時(shí)它正在搞秋季機(jī)票促銷(xiāo)的活動(dòng)。

我們過(guò)著忙碌的日子,這讓大家都毫無(wú)耐心可言;需要多個(gè)步驟的私人任務(wù)會(huì)讓人覺(jué)得難以對(duì)付。一個(gè)典型的例子是:預(yù)先規(guī)劃,為全家出行訂購(gòu)機(jī)票。

比如說(shuō),你好不容易擠出半小時(shí)的時(shí)間上網(wǎng)購(gòu)票,看看大家有沒(méi)有空,到了秋天探望外婆,以便能在機(jī)票大促銷(xiāo)之際淘到實(shí)惠??墒侨绻阍L問(wèn)不了經(jīng)常光顧的那家航空公司的網(wǎng)站,或者訪問(wèn)起來(lái)速度特慢,因而無(wú)法完成購(gòu)票,那種沮喪可想而知。你是說(shuō)“好吧”,過(guò)后再試一試,還是會(huì)去查看其他航空公司的機(jī)票?極有可能會(huì)是后者,此外你可能惱怒不已,于是在社交網(wǎng)站上吐槽這次糟糕的經(jīng)歷。

美國(guó)西南航空公司在今年6月初遇到了網(wǎng)站速度變慢持續(xù)多日的故障,當(dāng)時(shí)它正在搞秋季機(jī)票促銷(xiāo)的活動(dòng)。高出預(yù)期的網(wǎng)站流量導(dǎo)致其網(wǎng)站速度大幅下降,以至于對(duì)大多數(shù)客戶來(lái)說(shuō),網(wǎng)頁(yè)超時(shí)打不開(kāi)。更要命的是,免費(fèi)熱線電話同樣打爆了,根本打不進(jìn)去。西南航空公司照例料到了每年秋季機(jī)票促銷(xiāo)會(huì)迎來(lái)更旺盛的需求,但事先投入的額外容量不夠充足。這番解釋不可能讓覺(jué)得不便的客戶感到滿意,也不可能讓哀嘆收入損失的主管們感到滿意。

在我們這個(gè)始終聯(lián)通的無(wú)線世界,廣大客戶對(duì)電子商務(wù)的要求在不斷地迅速提高。哪怕網(wǎng)站性能差強(qiáng)人意幾秒鐘(更不用說(shuō)幾天了!),就足以將忠誠(chéng)的客戶送到他人懷里。IT部門(mén)證明自身價(jià)值的辦法就是,通過(guò)成熟的、優(yōu)化的容量管理,讓業(yè)務(wù)部門(mén)能夠滿足這些更高的要求。

那么,企業(yè)組織如何才能避免諸如此類的客戶服務(wù)災(zāi)難呢?這歸結(jié)為做好容量管理的四個(gè)必要部分:預(yù)測(cè)及預(yù)防、分析有意義的度量指標(biāo)、規(guī)劃時(shí)兼顧業(yè)務(wù)需要以及反復(fù)測(cè)試。

預(yù)測(cè)及預(yù)防

想避免收入和信譽(yù)損失、客戶流失,最好的辦法就是預(yù)防停運(yùn),尤其是無(wú)法怪罪于重大災(zāi)難的那種日常故障。要收集和分析機(jī)器、電源、日志、使用情況和成本數(shù)據(jù),尤其要注重性能和資源使用情況。詳細(xì)地清查和評(píng)估當(dāng)前容量。與面向客戶的業(yè)務(wù)部門(mén)合作,根據(jù)歷史數(shù)據(jù)以及規(guī)劃的未來(lái)項(xiàng)目,共同找出使用方面的趨勢(shì)。

一旦你收集并關(guān)聯(lián)了有意義的數(shù)據(jù)集,就可以運(yùn)用預(yù)測(cè)性分析手段了。這樣一來(lái),可以對(duì)照數(shù)據(jù)(根據(jù)當(dāng)前容量及/或規(guī)劃容量)模擬場(chǎng)景,那樣讓IT部門(mén)可以預(yù)測(cè)停運(yùn)事件有可能因過(guò)度使用或機(jī)器故障而出現(xiàn)在哪個(gè)時(shí)間點(diǎn)。利用詳細(xì)的數(shù)據(jù)深入挖掘,分析導(dǎo)致任何意外結(jié)果的根源,那樣就能查明弱點(diǎn),一勞永逸地加以解決,以便演變成令人尷尬的公眾事件。

數(shù)據(jù)驅(qū)動(dòng)的智能預(yù)測(cè)(可能的話還有模擬)可以揭示流量方面預(yù)計(jì)增長(zhǎng)或猛增的級(jí)聯(lián)效應(yīng)。有了準(zhǔn)確的預(yù)測(cè),才有可能認(rèn)真而經(jīng)濟(jì)高效地配置足夠的資源,根據(jù)需要滿足需求,而不是在容量匱乏影響最終用戶后,隨意地添加容量。

分析響應(yīng),而不是分析機(jī)器利用率

由于數(shù)據(jù)中心中生成那么多的數(shù)據(jù),可能很難知道該分析哪些數(shù)據(jù),而IT部門(mén)常常分神,把注意力放在只能表明部分情況的度量指標(biāo)上。要關(guān)注性能,而不是機(jī)器利用率;要了解你的客戶如何訪問(wèn)、何時(shí)訪問(wèn)及為何訪問(wèn)你的網(wǎng)站,以及他們對(duì)網(wǎng)站性能有怎樣的要求。開(kāi)清楚最終用戶的實(shí)際要求和體驗(yàn)。如果規(guī)劃未來(lái)的業(yè)務(wù)項(xiàng)目,務(wù)必要明白業(yè)務(wù)目標(biāo),還要明白最終用戶需要實(shí)施的變化理應(yīng)解決什么樣的問(wèn)題。

在技術(shù)方面,認(rèn)真分析延遲和響應(yīng)時(shí)間,以便從統(tǒng)計(jì)學(xué)角度準(zhǔn)確洞察最終用戶體驗(yàn)。分析工作負(fù)載事務(wù)、應(yīng)用程序性能和虛擬機(jī),看看多少時(shí)間用在服務(wù)活動(dòng)上、又有多少時(shí)間用在等待資源上。進(jìn)行必要的調(diào)整,以便針對(duì)面向最終用戶的工作負(fù)載和事務(wù)進(jìn)行優(yōu)化。

合理規(guī)劃

如果說(shuō)一分預(yù)防勝過(guò)十分治療,那么妥善的計(jì)劃可以避免大量的補(bǔ)救。要預(yù)料到銷(xiāo)售(想想西南航空公司)、促銷(xiāo)、部署新的應(yīng)用程序和網(wǎng)站、季節(jié)性或時(shí)段性流量激增帶來(lái)的影響。做這種類型的規(guī)劃時(shí),與業(yè)務(wù)部門(mén)(營(yíng)銷(xiāo)、促銷(xiāo)和運(yùn)營(yíng)等部門(mén))進(jìn)行合作很重要,其重要性再怎么強(qiáng)調(diào)都不為過(guò)。規(guī)劃架構(gòu)升級(jí)時(shí),別忘了運(yùn)行模擬所需要的時(shí)間和資源,那樣你才能準(zhǔn)確地了解架構(gòu)在各種場(chǎng)景下對(duì)最終用戶而言會(huì)有怎樣的性能。

你不可能預(yù)測(cè)每一種可能的結(jié)果,也不可能控制每一個(gè)因素,所以規(guī)劃響應(yīng)停運(yùn)或速度減慢的體系很要緊。響應(yīng)的速度和效果關(guān)系到停運(yùn)是小問(wèn)題還是大災(zāi)難。西南航空公司的停運(yùn)事件整整延續(xù)了兩天,這在分秒必爭(zhēng)的電子商務(wù)時(shí)代簡(jiǎn)直不可想象,大量的電話很快讓網(wǎng)站之外的唯一選擇:熱線電話也不堪重負(fù)。事件響應(yīng)規(guī)劃是企業(yè)核心服務(wù)和競(jìng)爭(zhēng)能力的一個(gè)重要組成部分。

反復(fù)測(cè)試

與合理規(guī)劃一樣,測(cè)試也需要時(shí)間和資源,而證明有必要為測(cè)試投入時(shí)間和資源可能有難度。記住這一點(diǎn)很重要,全面的、針對(duì)性的測(cè)試能揭示不可預(yù)見(jiàn)的不兼容性、故障和容量問(wèn)題。今年早些時(shí)候,一臺(tái)內(nèi)部域名服務(wù)器(DNS)上所犯的配置錯(cuò)誤導(dǎo)致iTunes和蘋(píng)果商店停運(yùn),結(jié)果讓蘋(píng)果在短短12個(gè)小時(shí)損失了估計(jì)2500萬(wàn)美元的收入。

在每次變化或升級(jí)前后都要進(jìn)行測(cè)試。測(cè)試人員往往忽視了之前或之后的測(cè)試,或者只管測(cè)試,而不解釋測(cè)試結(jié)果的種種差異。針對(duì)各種場(chǎng)景反復(fù)測(cè)試有助于防止客戶流失和收入流失,服務(wù)出現(xiàn)故障后常常會(huì)出現(xiàn)這種雙重流失。它還避免了令人尷尬的公眾事件以及隨后而來(lái)的品牌或名譽(yù)受損,而這會(huì)帶來(lái)深遠(yuǎn)的影響。

healthcare.gov網(wǎng)站大癱瘓就是個(gè)典型的警世故事;缺少規(guī)劃和測(cè)試引起的大范圍服務(wù)故障和延遲在社會(huì)、經(jīng)濟(jì)和公共福利方面帶來(lái)了深遠(yuǎn)影響,可能多年過(guò)后仍沒(méi)有消散。

在巨大而復(fù)雜的網(wǎng)站和在線服務(wù)生態(tài)系統(tǒng)中,想確保完美無(wú)缺的性能,要兼顧太多的因素。保持競(jìng)爭(zhēng)優(yōu)勢(shì)取決于贏得并留住滿意的客戶,要是沒(méi)有經(jīng)過(guò)優(yōu)化的IT服務(wù)交付體系,就很難做到這一點(diǎn)。只有結(jié)合數(shù)據(jù),深入了解你的系統(tǒng)以及客戶如何與系統(tǒng)進(jìn)行互動(dòng),做好容量規(guī)劃和測(cè)試工作,才是確?;A(chǔ)設(shè)施有彈性、業(yè)務(wù)獲得發(fā)展的關(guān)鍵。

英文:4 Steps To Prevent Infrastructure Outages

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)