摘要:IT系統(tǒng)已經(jīng)宕機,它正在影響業(yè)務(wù)。發(fā)生了什么事,以及需要采取哪些措施才能讓所有的事情恢復(fù)穩(wěn)定?這種困境在技術(shù)平臺上建立商業(yè)能力的現(xiàn)代企業(yè)中經(jīng)常出現(xiàn)。IT事件響應(yīng)不能留給純粹的反應(yīng)過程,企業(yè)不能無序發(fā)展,而是需要一個周密的管理和解決系統(tǒng)。
當(dāng)一個重要的應(yīng)用程序崩潰時,用戶最好有適當(dāng)?shù)腎T事件管理流程和程序來解決它。
IT系統(tǒng)已經(jīng)宕機,它正在影響業(yè)務(wù)。發(fā)生了什么事,以及需要采取哪些措施才能讓所有的事情恢復(fù)穩(wěn)定?
這種困境在技術(shù)平臺上建立商業(yè)能力的現(xiàn)代企業(yè)中經(jīng)常出現(xiàn)。IT事件響應(yīng)不能留給純粹的反應(yīng)過程,企業(yè)不能無序發(fā)展,而是需要一個周密的管理和解決系統(tǒng)。
IT事件管理和解決是組織如何在其技術(shù)平臺上維持系統(tǒng)可用性和正常運行時間的核心。
在ITIL服務(wù)管理框架下,IT事件管理被描述為記錄和解決事件的定義過程。目的是盡快恢復(fù)對客戶的服務(wù),通常是通過解決方法或臨時修復(fù),而不是永久解決方案。
快速解決是值得稱贊的,但IT部門如何確保這種情況發(fā)生在物理,虛擬和云環(huán)境的混合組合,伴隨異構(gòu)IT帶來的所有復(fù)雜性?
IT事件類型
工具應(yīng)確保事件不會成為問題。ITIL將事件與問題區(qū)分開來:事件是一種易于影響用戶并單獨發(fā)生的事件;問題是在事件發(fā)生之前重復(fù)事件或識別IT基礎(chǔ)設(shè)施中的問題。跟蹤事件和使用模式匹配算法有助于處理問題。讓人們專注于產(chǎn)生IT組織響應(yīng)的一次性事件。
事件屬于硬故障,軟故障,以及軟件故障:
·硬故障是IT平臺中的物理資產(chǎn)(例如服務(wù)器,網(wǎng)絡(luò)鏈路或存儲陣列)或其中任何組件的故障。
·由于IT平臺內(nèi)的虛擬結(jié)構(gòu)(例如虛擬服務(wù)器,存儲卷或網(wǎng)絡(luò)鏈路)中的故障,會發(fā)生軟故障。
·軟件事件是軟件中由編碼錯誤或應(yīng)用程序所依賴的數(shù)據(jù)損壞引起的故障。
IT事件管理過程
任何IT事件管理方法的第一個方是根本原因分析:首先是到底什么導(dǎo)致事件的發(fā)生?因此,管理工具的第一個重點是發(fā)現(xiàn)事件是否發(fā)生在軟硬故障或軟件問題上。
第二個重點必須是盡快修復(fù)或規(guī)避問題,以盡量減少事故造成的損害。完全修復(fù)是IT事件響應(yīng)的最佳結(jié)果。將系統(tǒng)恢復(fù)到之前的狀態(tài),而不會因為業(yè)務(wù)連續(xù)性而損失性能或數(shù)據(jù)計數(shù),但并不總是可能的。完整的修復(fù)可能需要時間來實現(xiàn)。部分修復(fù)其中可能對用戶體驗有輕微的負面影響,或已知數(shù)據(jù)量丟失,應(yīng)該是其最低目標(biāo)。
最終安全措施災(zāi)難恢,只能用于完整的災(zāi)難。災(zāi)難恢復(fù)總是導(dǎo)致一段時間的能力損失和數(shù)據(jù)的明顯丟失。
工具還應(yīng)確保事件不會成為問題,這意味著任何最終解決方案都是長期的,并阻止未來事件再次發(fā)生。如果適當(dāng)?shù)腎T事件響應(yīng)首先需要戰(zhàn)術(shù)性修復(fù)作為解決方案以啟用客戶,則較長的進程應(yīng)識別并實施長期修復(fù)。
留下痕跡
在IT審計的情況下,這些工具可以證明是有用的。例如,從即時通訊工具中添加詳細信息有助于證明所做的工作,何時,如何處理事件以及采取了什么步驟阻止它們成為問題。一個經(jīng)過審計的公司,無論是遵守內(nèi)部標(biāo)準(zhǔn),ISO90001還是法規(guī)遵從性要求,都可能需要IT事件管理工具到位。
工具格式
許多服務(wù)臺系統(tǒng)(例如BMCRemedyIT服務(wù)管理套件,VivantioPro和Zendesk)嵌入了IT事件管理工具,但有些服務(wù)臺系統(tǒng)只是監(jiān)督IT事件管理的過程,并且不提供實施完全補救的實際能力。
有人問:你希望如何改善企業(yè)業(yè)務(wù)的IT事件管理?其他工具完全集成到服務(wù)臺系統(tǒng)中,提供用于IT資產(chǎn)管理,根本原因分析和修復(fù)的功能,以及使用服務(wù)臺系統(tǒng)處理提高故障單并向管理員通知正在發(fā)生的情況。IT管理供應(yīng)商,如ManageEngine,BMC軟件,SolarWinds,ServiceNow和Cherwell軟件,提供全面的事件解決功能,而不是單個故障。
你選擇用于安裝有效IT事件響應(yīng)的工具必須具有以下功能:
·了解所管理的IT平臺的物理體系結(jié)構(gòu);
·了解管理下的IT平臺的虛擬架構(gòu),包括公共云平臺;
·完全理解虛擬和物理實體之間的所有依賴關(guān)系;
·快速找到發(fā)生的IT事件并記錄日志;
·對事件進行根本原因分析并記錄;
·確定事件是否可以通過自動化方式修復(fù),如果不能,則通過故障單提醒管理員;
·創(chuàng)建補救方法,或向補救系統(tǒng)提供足夠的數(shù)據(jù),以便可以修復(fù)事件;
·在只能進行部分修復(fù)的情況下,提供完整修復(fù)的故障單;
·記錄所做的全部細節(jié),并以可以識別事件的任何重復(fù),并記錄結(jié)果問題的細節(jié)的方式存儲它們;
·根據(jù)所有記錄的信息,為發(fā)現(xiàn)的所有事故,包括采取的步驟,結(jié)果等提供有意義和有用的報告。
在需要人為干預(yù),例如物理系統(tǒng)失效的情況下,IT事件管理工具應(yīng)當(dāng)與允許手動工作的操作工具(例如服務(wù)臺軟件)雙向地集成。一旦更換或固定硬件,IT事件管理工具應(yīng)接收此信息,以使其記錄保持最新。如果同樣的事件再次發(fā)生,工具的記錄將有助于確定它是否是地方性的。
組織應(yīng)該考慮如何最好地實施這些工具,以支持不斷變化的IT平臺所需的靈活性,確保它涵蓋私有的和公共的基礎(chǔ)設(shè)施。