在新技術(shù)層出不窮的今天,數(shù)據(jù)中心運(yùn)維工作總是得不到足夠的重視。數(shù)據(jù)中心在不出任何問題的情況下,對運(yùn)維的工作是持默認(rèn)態(tài)度的,但如果出了一系列問題,付出的工作可能毀于一旦,工作的績效有點(diǎn)要拼人品的味道。其實(shí),正如那句話所說的“古羅馬不是一天建成的”那樣,數(shù)據(jù)中心發(fā)生了故障,甚至是致命的故障,很多時候并不是突然就發(fā)生的,是平時工作的長期忽視才最終釀成了悲劇。如何做運(yùn)維才能體現(xiàn)出工作的價值,如何做運(yùn)維才能降低數(shù)據(jù)中心出現(xiàn)故障的風(fēng)險,在這樣的需求背景下,智能化運(yùn)維應(yīng)運(yùn)而生。
數(shù)據(jù)中心運(yùn)維工作主要包括配置管理和監(jiān)控,運(yùn)維人員每天都要進(jìn)行大量的模塊維護(hù)操作。運(yùn)維的操作設(shè)計程序更新、配置修改、數(shù)據(jù)傳輸以及各種自定義的命令執(zhí)行。在運(yùn)維過程中,這些大多是通過手工操作或編寫腳本的方式,將模塊更新到生產(chǎn)環(huán)境中,手工操作不可避免的會帶來誤操作,效率低下,甚至出現(xiàn)過模塊上線操作排隊的現(xiàn)象。另一方面對數(shù)據(jù)中心運(yùn)行的監(jiān)控,數(shù)據(jù)中心里運(yùn)行著成千上萬臺的各種設(shè)備,經(jīng)常會出現(xiàn)這樣那樣的問題,要等到故障反映到業(yè)務(wù)層面,那實(shí)際上已經(jīng)造成了損失,所以在嚴(yán)重故障發(fā)生之前,如果能夠發(fā)現(xiàn)一些設(shè)備運(yùn)行的異常表現(xiàn),及時消除就可以減少故障對數(shù)據(jù)中心的影響,對數(shù)據(jù)中心進(jìn)行監(jiān)控就是將危險消滅在搖籃之中。然而數(shù)據(jù)中心里的設(shè)備、應(yīng)用程序、組網(wǎng)包含很多小系統(tǒng),非常復(fù)雜,如果靠人去檢查,不僅效率低還容易漏掉,而通過智能化運(yùn)維就可以通過機(jī)器去檢查所有運(yùn)行的設(shè)備,并且對這些運(yùn)行的設(shè)備進(jìn)行監(jiān)控,發(fā)現(xiàn)隱患及時告警,當(dāng)運(yùn)維收到這些告警時,再采取行動。智能化運(yùn)維不僅將運(yùn)維人員從繁瑣的工作中解放出來,而且還大大提升了運(yùn)維工作的效率,是未來數(shù)據(jù)中心運(yùn)維發(fā)展的主要方向。所謂的智能化運(yùn)維,在這里給下個定義,就是用機(jī)器來代替運(yùn)維人員,在最少人工干預(yù)下,結(jié)合運(yùn)用腳本與第三方工具,保證業(yè)務(wù)7*24小時高效穩(wěn)定運(yùn)行,這也是所有數(shù)據(jù)中心運(yùn)維工作的終極目標(biāo)。
隨著數(shù)據(jù)中心規(guī)模越來越大,通過人工的方式做數(shù)據(jù)中心運(yùn)行幾乎不可能,這使得智能化運(yùn)維得到了很快發(fā)展,也出現(xiàn)了很多智能化運(yùn)維的軟件。比如:監(jiān)控系統(tǒng)用nagios,流量監(jiān)控用cacit,集群監(jiān)控用ganglia,ping監(jiān)控用ipmonitor或xping,配置管理用puppet等等,這些軟件都是開源的,可以根據(jù)自己數(shù)據(jù)中心的業(yè)務(wù)特點(diǎn)進(jìn)行修改,形成自己的運(yùn)維工具。一個智能化的運(yùn)維工具要想覆蓋到所有的設(shè)備,所有可能出現(xiàn)的風(fēng)險,是一件非常困難的事情,因?yàn)閿?shù)據(jù)中心涉及的設(shè)備和技術(shù)實(shí)在太多了,并且這些技術(shù)還在不斷地更新著。數(shù)據(jù)中心對運(yùn)維的要求是:事前預(yù)警:在故障出現(xiàn)之前,管理人員應(yīng)該能在任何時間,任何地點(diǎn)接收到告警信息,并及時處理問題,把故障隱患扼殺在搖籃中;事中恢復(fù):天有不測風(fēng)云,即使是再完美的方案也可能有預(yù)料之外的故障,為保證在最短時間內(nèi)恢復(fù)業(yè)務(wù),關(guān)鍵數(shù)據(jù)不因故障丟失,我們需要有完整備份方案來應(yīng)對自如;事后存檔,以便吸取教訓(xùn),避免故障二次發(fā)生。要實(shí)現(xiàn)這樣的運(yùn)維要求,可不是一件容易的事情。這需要一個經(jīng)驗(yàn)豐富且高效的運(yùn)維服務(wù)團(tuán)隊來完成。隨著我們的業(yè)務(wù)系統(tǒng)不斷增加,業(yè)務(wù)量的不斷上升,成熟的運(yùn)維服務(wù)基本會借助第三方工具,高效的進(jìn)行軟件的部署與運(yùn)維。
智能化運(yùn)維要做到事前預(yù)警,事中恢復(fù),事后存檔,實(shí)際上是要有大量的工作要完成。首先,要對重要的設(shè)備實(shí)施主動式監(jiān)控,如路由器、交換機(jī)、防火墻等。當(dāng)這些設(shè)備在運(yùn)行過程中出現(xiàn)告警時,要及時通知到運(yùn)維人員,對于一些簡單的告警智能化工具可以自行處理并修復(fù),直接將處理結(jié)果反饋給運(yùn)維人員即可。其次,新業(yè)務(wù)部署或配置變更檢測也要做到自動化。新業(yè)務(wù)部署時涉及很多設(shè)備和應(yīng)用程序的調(diào)整,這個涉及大量的人工操作要有智能化工具來代替,還有各種設(shè)備的配置參數(shù)若發(fā)生變化,也將觸發(fā)變更流程轉(zhuǎn)給相關(guān)運(yùn)維人員進(jìn)行確認(rèn),通過自動檢測協(xié)助運(yùn)維人員發(fā)現(xiàn)和維護(hù)配置。第三,維護(hù)事件提醒自動化,通過對設(shè)備和應(yīng)用活動的時時監(jiān)控,當(dāng)發(fā)生異常事件時系統(tǒng)自動啟動報警和響應(yīng)機(jī)制,第一時間通知相關(guān)運(yùn)維責(zé)任人,以便采取進(jìn)一步行動。第四,系統(tǒng)健康檢測自動化。定期自動地對設(shè)備硬件和應(yīng)用系統(tǒng)進(jìn)行健康巡檢,配合運(yùn)維服務(wù)團(tuán)隊實(shí)施對系統(tǒng)的健康檢查和監(jiān)控,及時發(fā)現(xiàn)系統(tǒng)級的運(yùn)行風(fēng)險。最后,維護(hù)報告生成自動化,定期自動地對系統(tǒng)做日志的收集分析,記錄系統(tǒng)運(yùn)行狀況,并通過階段性的監(jiān)控、分析和總結(jié),定時提供運(yùn)維服務(wù)的可用性、性能、系統(tǒng)資源利用狀況分析報告,以便數(shù)據(jù)中心可以根據(jù)運(yùn)行情況,進(jìn)行下一個階段的投資。實(shí)際上,已經(jīng)有不少的公司看到了數(shù)據(jù)中心運(yùn)維的市場機(jī)會,推出了一些智能化工具,不過由于每個數(shù)據(jù)中心都有自身的特點(diǎn),不少工具并不適用,需要大量的修改,真正能夠給數(shù)據(jù)中心運(yùn)維帶來革命性改革的工具還沒有看到,因?yàn)橹悄芑\(yùn)維還有很長的路要走。
在可預(yù)見的未來,運(yùn)維的角色將變得越來越重要,數(shù)據(jù)中心的運(yùn)維工作也將越來越繁重。智能化運(yùn)維不僅能滿足我們對數(shù)據(jù)中心運(yùn)維的要求,解放生產(chǎn)力,還能使我們的運(yùn)維管理更加規(guī)范化,標(biāo)準(zhǔn)化,從而真正意義上的實(shí)現(xiàn)智能化運(yùn)行。