在一個穩(wěn)定運行的數(shù)據中心內,硬件維護是一個必要的程序。雖然有時候會很難找到時間執(zhí)行一些高優(yōu)先級的任務,更別說一般的例行任務了。但毫無疑問的是,硬件維護是不可忽視的,如果你忽視它,那么就會有更多的麻煩產生,從而被迫執(zhí)行更多的高優(yōu)先級任務和例行任務,甚至有時候會因為硬件故障而產生不可避免的損失。為了避免這種情況,最重要的一點是建立一個完善的硬件維護計劃和體系,并提高硬件維護計劃的可用性。
確定硬件維護計劃
第一件事情就是要從根本上重視這一計劃,包括硬件維護計劃的制定,過程的執(zhí)行以及硬件維護結果的審查。首先是確定一個硬件維護的計劃,選擇一個合適的硬件維護公司,這是很重要的。其次,要對硬件維護計劃進行必要的支持。
在確定硬件維修計劃的過程中,特別要注意的是,一份完善的硬件維護計劃應該包含例行的硬件維護和日常的技術支持,以便當數(shù)據中心的硬件發(fā)生問題時,需要得到及時的解決。如果在凌晨的2點鐘,發(fā)現(xiàn)硬件的故障卻發(fā)現(xiàn)合同上并沒有顯示硬件維護公司有技術支持的義務,這是誰都不希望發(fā)生的情況。
避免這種情況的辦法之一就是找一個擁有24×7技術支持能力的合作伙伴,另外就是培訓自己的相關工作人員,使他們在關鍵時刻有緊急處理的能力。當然,處理硬件的緊急故障并不是換一換零件那么簡單,相應的工作人員最好擁有相匹配的業(yè)務水平,這對數(shù)據中心來說也是保持穩(wěn)定運行的一大保障。
數(shù)據存儲備份
數(shù)據存儲備份是硬件維護過程中一個比不缺少的環(huán)節(jié)。無論是自然原因還是人為原因,數(shù)據一旦遭到破壞如果恢復不及時的話對數(shù)據中心和企業(yè)來講都是一個致命的打擊。在一般人腦海里,往往把備份和拷貝等同起來,把備份單純看作是更換磁帶、為磁帶編號等一個完全程式化的、單調的操作過程。其實不然,因為除了拷貝外,還包括更重要的內容即管理。備份管理包括備份的可計劃性,磁帶機的自動化操作、歷史記錄的保存以及日志記錄等。事實上,備份管理是一個全面的概念,它不僅包含制度的制定和磁帶的管理,而且還能決定引進備份技術,如備份技術的選擇、備份設備的選擇、介質的選擇乃至軟件技術的挑選等。
此外還要注意備份過程中的磁盤磨損問題。在磁盤運行的時候是處于不停轉動的時候,如果突然關掉它,會導致磁盤損壞甚至備份失敗。
硬件的監(jiān)控和檢測
硬件的監(jiān)控軟件可以讓數(shù)據中心的工作人員更好的了解設備的工作情況,這些監(jiān)控包括主板的溫度,風扇的轉速,磁盤的運行情況等等。由于現(xiàn)在數(shù)據中心的服務器越來越多,提供全天候的硬件和網絡監(jiān)控就成了工作人員的責任。通過監(jiān)控軟件可以在硬件發(fā)生故障之前就可以提前得到通知,讓工作人員有充分的時間采取措施從而避免故障的發(fā)生。
在數(shù)據中心內大多數(shù)系統(tǒng)都有冗余的電源,風扇,磁盤驅動器甚至I/O卡。當冗余的設備發(fā)生故障的時候,正常的系統(tǒng)也會出現(xiàn)故障。而一些檢測工具是專門針對冗余設備而設計的,它可以輕易的檢測出發(fā)生故障的冗余設備,這可以幫助工作人員在最短的時間內確定故障從而修復它,從而降低數(shù)據中心的停機時間,恢復數(shù)據中心的穩(wěn)定運行。
預防性的硬件維護
由于現(xiàn)在科技和自動化系統(tǒng)的嚴重依賴,對數(shù)據中心運行的連續(xù)性要求也越來越高。今天企業(yè)在尋求降低成本的方法的時候也在對運行的連續(xù)性提出了更高的要求,因為數(shù)據中心的運行中斷產生的影響越來越大。應此,不管是中小企業(yè)還是大型企業(yè)來講,都應該進行硬件維護的預防性實踐,以保證數(shù)據中心的運行穩(wěn)定性。
并不是只有在發(fā)生故障的時候才能想起硬件維護的重要性,單單日常的例行維護還是不夠的。預防性的維護計劃能夠最大限度的提升設備運行的可靠性和UPS等關鍵性設備的運行性能。由此可見預防性硬件維護的重要性不言而喻。
在硬件維護計劃的執(zhí)行上,數(shù)據中心的相關工作人員應該定期每年,每月甚至每周的檢查基礎設施,并進行必要的保養(yǎng)。例如,備用電池的充電情況,發(fā)電機的燃油水平,電池的電壓,發(fā)動機的冷卻液溫度等等,對于一些異常的情況也要及時的關注,如氣味的異常,溫度的異常,要確定這些情況的產生是否UPS或冷卻系統(tǒng)的泄漏。此外,對于上次維護的設備也應該進行檢查,如滅火器,自動噴淋系統(tǒng)等等。