全球有上百家公司可提供數(shù)據(jù)中心基礎(chǔ)設(shè)施解決方案(DCIM)(附錄1“數(shù)據(jù)中心基礎(chǔ)設(shè)施解決方案(DCIM)DCK指南”中列出了部分供應(yīng)商),因此,我們很難確定自己真正需要的功能部件。其中很多解決方案中都包含了以下重要功能構(gòu)件,包括:
資產(chǎn)管理、變更管理與配置管理
資產(chǎn)管理是DCIM的關(guān)鍵組成。 從服務(wù)器、存儲裝置、聯(lián)網(wǎng)設(shè)備到電源和冷卻基礎(chǔ)設(shè)施,數(shù)據(jù)中心內(nèi)包含有成千上萬的資產(chǎn)。對這些資產(chǎn)進(jìn)行跟蹤是一項持續(xù)且一般工作量極大的任務(wù)。Digital Realty Trust在一項調(diào)查中曾詢問數(shù)據(jù)中心經(jīng)理,當(dāng)有服務(wù)器停止工作時,一般需要多久才能被發(fā)現(xiàn)。 僅有26%的被調(diào)查者表示可以幾分鐘內(nèi)找到發(fā)生故障的服務(wù)器。僅有58%的被調(diào)查者表示可在4小時內(nèi)找到該故障服務(wù)器;另有20%的被調(diào)查者則表示需要一天以上的時間。數(shù)據(jù)中心若缺乏設(shè)備定位功能,將會增加設(shè)備的平均修復(fù)時間(MTTR),降低設(shè)備的整體可用性。
不過,資產(chǎn)管理所包含不僅是簡單的資產(chǎn)定位功能,還包含了解資產(chǎn)配置的詳細(xì)信息。例如,一臺服務(wù)器可能由一個或多個機(jī)架電源插排供電。若這些電源斷開,將會導(dǎo)致服務(wù)器停機(jī)。這臺服務(wù)器可能連接有一臺或多臺切換器或路由器。
重新路由這些網(wǎng)絡(luò)設(shè)備可能導(dǎo)致無法找到相應(yīng)的服務(wù)器。服務(wù)器可能是多臺虛擬機(jī)的主機(jī),若關(guān)閉該服務(wù)器,將會導(dǎo)致這些虛擬機(jī)無法工作。 若不了解服務(wù)器配置的詳細(xì)信息,我們會很難針對服務(wù)器及其他配套基礎(chǔ)設(shè)施做出合理的決策。而且任何配置發(fā)生變化,都可能導(dǎo)致服務(wù)器及其相關(guān)設(shè)施變得無法使用。
為了準(zhǔn)確地管理資產(chǎn)及其相關(guān)配置,我們還必須對變更進(jìn)行管理。據(jù)估算,近有80%的系統(tǒng)停機(jī)時間是由于變更導(dǎo)致的,而且近80%的平均修復(fù)時間(MTTR)是用在查找哪里發(fā)生了變更。因此,變更管理是DCIM解決方案的重要組成部分。在《可見運(yùn)維手冊 - 構(gòu)建ITIL的四大實(shí)踐與審核步驟》一書中,作者在對多家高績效IT組織進(jìn)行調(diào)查時發(fā)現(xiàn),故障排查經(jīng)理僅需查看資產(chǎn)的計劃內(nèi)變更和授權(quán)變更記錄(及實(shí)際監(jiān)測到的資產(chǎn)變更),就可以提出問題解決方法的情況占八成以上,而且一次性故障修復(fù)率達(dá)90%以上。該作者還發(fā)現(xiàn),那些實(shí)施了自動化變更審核的機(jī)構(gòu)在了解到數(shù)據(jù)中心默默無聞地發(fā)生了多少變更后,都感到極為震驚和恐慌。能夠?qū)σ咽跈?quán)變更及監(jiān)測到的變更(不需授權(quán)的變更)進(jìn)行跟蹤是DCIM的一項重要功能,可大大縮短設(shè)備的平均修復(fù)時間,提高系統(tǒng)的整體可用性。
實(shí)時監(jiān)控
數(shù)據(jù)中心有三種類別的實(shí)時監(jiān)控系統(tǒng):
o 樓宇管理系統(tǒng)(BMS)– BMS一般是使用了Modbus、BACnet、OPC、LonWorks 或簡單網(wǎng)絡(luò)管理協(xié)議(SNMP)的基于硬件的系統(tǒng)。該系統(tǒng)用于監(jiān)測及控制建筑物內(nèi)的機(jī)械和電氣設(shè)備。BMS一般為定制系統(tǒng),成本取決于要監(jiān)測的數(shù)據(jù)點(diǎn)的數(shù)目(UPS上的輸出負(fù)載或機(jī)房空調(diào)單元的回風(fēng)溫度等都屬于此類數(shù)據(jù)點(diǎn))。有時,BMS系統(tǒng)會延伸到數(shù)據(jù)中心,用于監(jiān)測和控制電源及冷卻設(shè)備。
o 網(wǎng)絡(luò)管理系統(tǒng)(NMS)-NMS一般是使用SNMP的基于軟件的系統(tǒng),用于監(jiān)控數(shù)據(jù)中心內(nèi)的網(wǎng)絡(luò)設(shè)備。網(wǎng)絡(luò)設(shè)備一般可被自動發(fā)現(xiàn),因此,安裝起來具有一定的自動性。
o 數(shù)據(jù)中心監(jiān)測系統(tǒng)(DCMS)-DCMS是用于監(jiān)測數(shù)據(jù)中心和機(jī)房的基于硬件及(或)軟件的系統(tǒng)。設(shè)備一般通過SNMP進(jìn)行通信,不過,有些數(shù)據(jù)中心監(jiān)測系統(tǒng)還通過Modbus、IPMI或其他協(xié)議進(jìn)行通信。
·在評估DCIM解決方案的實(shí)時監(jiān)測能力時,有多項重要特性需要考慮。其中一個關(guān)鍵要素就是您想要監(jiān)測什么設(shè)備。這一問題的答案對所選解決方案的影響最大。
例如,若您要監(jiān)測的設(shè)備即包含使用SNMP通信的設(shè)備,也包含使用Modbus通信的設(shè)備,那么,您所選擇的解決方案一定要同時支持SNMP和 Modbus協(xié)議。避免選用那些僅能監(jiān)測某一供應(yīng)商特定設(shè)備的解決方案,否則,若要對整個數(shù)據(jù)中心進(jìn)行監(jiān)測,您可能就需要購買多個單獨(dú)的系統(tǒng)。理想狀態(tài)下,您要選擇一款能夠支持多種現(xiàn)成硬件的DCIM解決方案,換言之,所選用的解決方案不應(yīng)具有供應(yīng)商定制性。而且,所選解決方案還要能夠同BMS等其他已有的監(jiān)測系統(tǒng)集成。
此外,您還要考慮該實(shí)時監(jiān)測是否采用了硬件部件。基于硬件的系統(tǒng)并非存在固有缺陷,事實(shí)上,與基于軟件的系統(tǒng)相比,基于硬件的系統(tǒng)能夠更快、更頻率地采集數(shù)據(jù)。但根據(jù)所需硬件部件的數(shù)目及各部件價格的不同,有時硬件成本可能導(dǎo)致整個DCIM解決方案的價格變得過于高昂。
系統(tǒng)能否支持設(shè)備自動發(fā)現(xiàn)功能是需要考慮的另一個重要特性。自動發(fā)現(xiàn)功能有諸多優(yōu)點(diǎn),能夠讓設(shè)備安裝起來更快速、更輕松,更不易出現(xiàn)用戶手動配置設(shè)備時可能發(fā)生的錯誤。需要指出的是,由于自動發(fā)現(xiàn)功能取決于設(shè)備的配置及所使用的通信協(xié)議(例如,SNMP設(shè)備一般可被自動發(fā)現(xiàn),而Modbus設(shè)備通常無法被發(fā)現(xiàn)),因此,并非所有設(shè)備都能夠被自動發(fā)現(xiàn)。
工作流
很多數(shù)據(jù)中心都在一定程度上實(shí)施了類似ITIL的流程。DCIM解決方案可幫助您協(xié)調(diào)這些流程。例如,新服務(wù)器的安裝一般包含多個步驟,有時可能需要數(shù)據(jù)中心的不同工作組共同完成。
DCIM解決方案可對各步驟進(jìn)行跟蹤,各工作組可報告自己任務(wù)的完成狀態(tài),以驗證是否所有所需步驟均已完成。在這種情況下,工作流功能可起到協(xié)調(diào)服務(wù)器安裝步驟的作用,以確保在技術(shù)人員將服務(wù)器安裝到機(jī)架前,各項準(zhǔn)備工作均已完成,簡化整個工作流程。
而且重要的是,DCIM工具所提供的工作流功能可根據(jù)您所定義的流程結(jié)構(gòu)內(nèi)的工作進(jìn)行調(diào)節(jié),而不需要您調(diào)節(jié)自己的流程,以與預(yù)先定義的工作流相配合。
分析與報告
DCIM解決方案的另一重要功能就是數(shù)據(jù)分析和報告。由于數(shù)據(jù)中心內(nèi)有數(shù)千臺設(shè)備,每臺設(shè)備都會報告多項測量結(jié)果,因此,所采集到的數(shù)據(jù)量很快就會變得無比龐大。所以,DCIM工具必須能夠快速對這些數(shù)據(jù)排序,并為管理團(tuán)隊提出可行建議。DCIM工具可通過報警信息、顯示變更及變更時間的歷史數(shù)據(jù)圖片、儀表板和報表等方式,提出此類建議。DCIM 工具可能提供有預(yù)定義的報表,但同時也要支持基于用戶所選參數(shù)的特別報告功能。
物理和虛擬基礎(chǔ)設(shè)施的可視化
DCIM解決方案的一個重要組成就是能夠查看物理和虛擬基礎(chǔ)設(shè)施。當(dāng)今市場上各種DCIM工具的可視化功能各不相同。有些DCIM工具可與AutoCAD或Visio等可視化工具交互,而有些則提供了虛擬編輯器,您可以在該工具內(nèi)完整地對自己的基礎(chǔ)設(shè)施布局。盡管當(dāng)前大部分的解決方案提供的都是俯視圖,不過,有些解決方案還提供有3D視圖,讓您能夠在數(shù)據(jù)中心內(nèi)“漫游”。很多解決方案都提供有數(shù)據(jù)中心的多層視圖,可查看諸如溫度、機(jī)架使用率、功率等各種參數(shù)。
這些可視視圖一般延伸至機(jī)架等級,DCIM工具可提供機(jī)架內(nèi)各設(shè)備的可視視圖。該視圖會顯示設(shè)備在機(jī)架或服務(wù)器內(nèi)的真實(shí)位置,并可提供各位置機(jī)架內(nèi)的溫度、機(jī)架內(nèi)用電量等額外數(shù)據(jù)。
用戶界面
若將DCIM的功能歸根結(jié)底為向用戶提供信息,那么歸根結(jié)底來說,一款不錯的DCIM用戶界面要以便于使用的方式為用戶提供信息,以讓用戶做出明智的決策。在《規(guī)劃合理的數(shù)據(jù)中心操作系統(tǒng)的五大重要組成》一文中,Kevin Malik描述了DCIM用戶界面的重要性,他在文中指出“數(shù)據(jù)中心操作系統(tǒng)擁有一個直觀的界面,使用戶能夠快速地查看各項報警、環(huán)境條件及其他詳細(xì)分析數(shù)據(jù)至關(guān)重要。”接著他還補(bǔ)充道,“各公司應(yīng)能夠?qū)C(jī)械數(shù)據(jù)、功率、冷卻和用電量等實(shí)時數(shù)據(jù)的視圖進(jìn)行定制,以使決策者能夠根據(jù)自己的職責(zé)范圍查看所需數(shù)據(jù),進(jìn)而優(yōu)化數(shù)據(jù)中心的運(yùn)行情況”。
就像可視化部件一樣,DCIM的用戶界面在外觀、感受和整體功能方面也各不相同。盡管大部分的DCIM產(chǎn)品都是基于web,用戶可隨時隨地查看數(shù)據(jù),但是,用戶界面的格式卻大不相同,其中包括儀表盤式、觸摸屏式,有的還具有支持 iPad及智能手機(jī)等手持設(shè)備的功能。
容量規(guī)劃
DCIM應(yīng)用程序所采集數(shù)據(jù)的一項重要功能就是為容量規(guī)劃提供信息。當(dāng)數(shù)據(jù)中心能夠最大程度地利用其關(guān)鍵資源時,尤其是電力和冷卻資源時,才可實(shí)現(xiàn)最高運(yùn)行效率。通過持續(xù)記錄資源消耗量及分析增長模式,數(shù)據(jù)中心管理人員能夠更加準(zhǔn)確地預(yù)測哪種資源將被耗盡。有了DCIM工具,管理人員能夠更為高效地管理各項關(guān)鍵資源,經(jīng)??赏七t數(shù)據(jù)中心的擴(kuò)建日程。
與其他數(shù)據(jù)中心管理解決方案集成
事實(shí)上,DCIM解決方案可能永遠(yuǎn)無法像一些DCIM供應(yīng)商所宣傳的那樣,能夠替代數(shù)據(jù)中心內(nèi)的其他各種管理工具。數(shù)據(jù)中心所使用的常見管理工具包括變更管理、CFD建模、資產(chǎn)管理、樓宇管理系統(tǒng)、維護(hù)管理及一些第三方或機(jī)構(gòu)內(nèi)部開發(fā)的工具。一款不錯的DCIM解決方案能夠與一些外部系統(tǒng)相集成,具有從加載Excel電子數(shù)據(jù)表到直接與成熟的基于web 的API(應(yīng)用程序接口)進(jìn)行數(shù)據(jù)庫交互的功能,使得DCIM能夠從外部導(dǎo)入及向外部導(dǎo)出數(shù)據(jù)。