某日,早上10點(diǎn),IT部門的直撥電話和分機(jī)幾乎同時(shí)響了起來(lái)。網(wǎng)管員對(duì)于這一現(xiàn)象早已司空見慣,但這次不同,用戶說(shuō)ERP系統(tǒng)時(shí)而能登錄,時(shí)而又無(wú)法訪問。這可是公司日常運(yùn)作的關(guān)鍵應(yīng)用系統(tǒng),抓緊第一時(shí)間排錯(cuò)。管理員在通訊線路、物理層設(shè)備、服務(wù)器、ERP系統(tǒng)、數(shù)據(jù)庫(kù)、存儲(chǔ)設(shè)備都一一開始排查問題,但一直到了下午17:00,還是沒有找問題根源所在。打電話求援廠商,采用了“分段”和“分層”的排查策略,基本斷定了是鏈路上有問題,但時(shí)斷、時(shí)通的問題還是沒有得到徹底解決。
上面這個(gè)案例充分說(shuō)明了一個(gè)問題,在IT支撐業(yè)務(wù)的年代,企業(yè)的規(guī)模越大,往往越經(jīng)受不住故障的侵襲。突如其來(lái)的各種故障可能隨時(shí)造成系統(tǒng)停機(jī),業(yè)務(wù)中斷。那么,如何在千絲萬(wàn)縷中找到問題,并在第一時(shí)間處理問題呢?
《排錯(cuò)寶典》缺乏時(shí)間觀念
前面提到的“分段法”和“分層法”常被IT運(yùn)維人員稱為《排錯(cuò)寶典》。其中,分段法,可以理解為在同一網(wǎng)絡(luò)上,把故障分成幾個(gè)段落,讓用戶利用Ping等命令對(duì)本地網(wǎng)關(guān)進(jìn)行連通性測(cè)試,再逐一排除。而分層法則更容易理解,比如從OSI模型中的物理層和應(yīng)用層,向上或向下進(jìn)行排除,逐層檢測(cè)每層設(shè)備或系統(tǒng)的可用性。但這種手工處理問題的方式很難在短時(shí)間內(nèi)發(fā)現(xiàn)問題的根源,另外一方面,則有可能因?yàn)樘珎}(cāng)促行事而把事情弄成一團(tuán)糟,引出其他因?yàn)榕渲眯薷脑斐傻幕靵y局面。
網(wǎng)絡(luò)故障的管理是IT綜合管理的重要組成部分,隨著網(wǎng)絡(luò)規(guī)模的增加,網(wǎng)絡(luò)故障的管理變得日益重要而緊迫。雖然我們?nèi)匀豢梢园凑?ldquo;IT經(jīng)典排錯(cuò)法”修復(fù)系統(tǒng),但在業(yè)務(wù)如此離不開IT的今天,龐大的運(yùn)維對(duì)象,如果不能將支持業(yè)務(wù)系統(tǒng)的設(shè)備都關(guān)聯(lián)起來(lái),當(dāng)成整體的運(yùn)維對(duì)象去看待,就很難在第一時(shí)間定位故障,業(yè)務(wù)的連續(xù)性也無(wú)法得到保障。
針對(duì)這一普遍現(xiàn)象,作為國(guó)內(nèi)領(lǐng)先的IT運(yùn)維產(chǎn)品和服務(wù)提供商的北塔軟件認(rèn)為:“目前許多企業(yè)的IT運(yùn)維環(huán)境中,管理員都會(huì)利用系統(tǒng)自帶的日志告警和網(wǎng)絡(luò)監(jiān)控腳本,但這只是處在‘半自動(dòng)化’的運(yùn)維狀態(tài)。因?yàn)檫@種IT運(yùn)維狀態(tài),很多還仍然是等到IT故障出現(xiàn)后再由運(yùn)維人員采取相應(yīng)的措施,所以傳統(tǒng)的、被動(dòng)的、孤立的IT運(yùn)維管理模式經(jīng)常是讓IT部門疲憊不堪。另外,在企業(yè)中,很多業(yè)務(wù)系統(tǒng)建設(shè)目標(biāo)都非常有針對(duì)性,但同時(shí)這也就造成了運(yùn)維的有限性,在網(wǎng)絡(luò)層和應(yīng)用層分別使用所配套監(jiān)視系統(tǒng),這些監(jiān)控的關(guān)注對(duì)象只可能是本層的設(shè)備或系統(tǒng)。雖然這些工具很強(qiáng)大,但仍然各自為戰(zhàn)。隨著新增業(yè)務(wù)系統(tǒng)一個(gè)又一個(gè)地建設(shè),其各自所配套的彼此各不相關(guān)的監(jiān)視系統(tǒng)也一個(gè)又一個(gè)地被建造出來(lái),并各自孤立地投入運(yùn)行。上面這些,都說(shuō)明了沒有關(guān)聯(lián)性的運(yùn)維模式為何不能及時(shí)發(fā)現(xiàn)故障問題的原因了。”
關(guān)聯(lián)性綜合管理有章可循
當(dāng)然,并不是所有運(yùn)維軟件都不能關(guān)聯(lián)性輔助管理人員發(fā)現(xiàn)、分析、定位、解決問題。北塔軟件設(shè)計(jì)BTIM系統(tǒng),其內(nèi)部所有管理組件都不是互相獨(dú)立的,這種基于企業(yè)IT運(yùn)維管理規(guī)律的關(guān)聯(lián)性,體現(xiàn)在客戶可以根據(jù)故障原因,一層一層地去抽絲剝繭的分析解決問題,而這也是BTIM讓你擺脫“找問題的日子”的最大價(jià)值體現(xiàn)。
關(guān)聯(lián)從拓?fù)湟潦?/strong>
企業(yè)可以利用“拓?fù)浒l(fā)現(xiàn)管理”關(guān)聯(lián)的各個(gè)模塊,呈現(xiàn)出一張信息非常豐富的“物理拓?fù)鋱D”。當(dāng)然,這張拓?fù)鋱D不只是一張“死圖”,它可以給予用戶一個(gè)對(duì)網(wǎng)絡(luò)資源的整體把握,能告訴我們網(wǎng)絡(luò)的各部分負(fù)載狀況,各線路流量狀況。在物理層采集完畢之后,我們就以在這個(gè)圖上大做文章,比如邏輯拓?fù)洹C(jī)房拓?fù)?、業(yè)務(wù)拓?fù)?,通過(guò)連接對(duì)支撐業(yè)務(wù)系統(tǒng)運(yùn)行對(duì)象的整合,形成不同的運(yùn)維組。
CMDB讓運(yùn)維流程凝為一體
前面提到的多個(gè)拓?fù)鋱D,為何我們不把它稱為“死圖”呢?這也就是為企業(yè)構(gòu)建配置管理數(shù)據(jù)庫(kù)(CMDB)埋下了伏筆。作為整個(gè)運(yùn)維平臺(tái)的基礎(chǔ),CMDB的作用就是確保配置數(shù)據(jù)的統(tǒng)一性和完整性,同時(shí)保證所有流程通過(guò)CMDB的紐帶作用關(guān)聯(lián)為一個(gè)整體,并與其他模塊(如知識(shí)庫(kù)、問題庫(kù)、服務(wù)臺(tái)等)緊密關(guān)聯(lián)。CMDB在IT綜合管理中,組成了物理網(wǎng)絡(luò)基礎(chǔ)架構(gòu)上各組件的可靠數(shù)據(jù)源,這些數(shù)據(jù)包括問題記錄、變動(dòng)記錄、版本信息、狀態(tài)信息、關(guān)系信息等等。如果缺乏這些數(shù)據(jù)支撐,沒有幾天的時(shí)間做統(tǒng)計(jì)分析,如果要想解決問題,那便真是大海撈針了。
操作上的關(guān)聯(lián)分秒必爭(zhēng)
比如文章開頭提到的ERP故障問題,如何快速響應(yīng),快速定位問題源,如何在第一時(shí)間解決,這些都在說(shuō)明一個(gè)問題,這就是“快”。所以說(shuō),如果出問題以后,我們就可以直接看到與這臺(tái)ERP服務(wù)器關(guān)聯(lián)的物理拓樸、機(jī)柜拓樸、和設(shè)備面板圖,從操作菜單上可以相互調(diào)用,提高處理問題的效率。網(wǎng)管員根據(jù)告警和機(jī)房物理設(shè)備地址的關(guān)聯(lián)關(guān)系,能迅速確定告警設(shè)備的機(jī)房位置,并且運(yùn)用強(qiáng)關(guān)聯(lián)性通過(guò)右鍵入口就能關(guān)聯(lián)到真實(shí)物理拓?fù)鋱D,然后定位到機(jī)柜圖上,此時(shí)便可直接通過(guò)設(shè)備面板視圖,最終定位到設(shè)備端口上。而前面這些操作,卻無(wú)需網(wǎng)管員跑到機(jī)房和設(shè)備前進(jìn)行排查。
在IT運(yùn)維中,“關(guān)聯(lián)”能夠?qū)⑵髽I(yè)的IT資源納入到一個(gè)統(tǒng)一平臺(tái)進(jìn)行管理,在此基礎(chǔ)上對(duì)于采集而來(lái)的底層數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,從而得出重要的運(yùn)維結(jié)論。同時(shí),基于業(yè)務(wù)系統(tǒng)的相關(guān)IT架構(gòu)也應(yīng)該能夠關(guān)聯(lián),對(duì)構(gòu)成業(yè)務(wù)系統(tǒng)的客戶端、數(shù)據(jù)交換平臺(tái)、硬件支撐平臺(tái)、支撐軟件平臺(tái)、應(yīng)用系統(tǒng)等進(jìn)行實(shí)時(shí)的監(jiān)控管理,從而準(zhǔn)確掌握業(yè)務(wù)系統(tǒng)的運(yùn)行情況,當(dāng)業(yè)務(wù)系統(tǒng)發(fā)生故障時(shí),能迅速定位到具體某一環(huán)節(jié)。只有這樣,才能真正做到對(duì)IT資源掌控于心,運(yùn)維無(wú)憂。