數(shù)據(jù)中心服務器從來不會停止工作太久,除非發(fā)生故障。供應商正在設計可以更快的修復、升級和預防性維護的服務器,但是你的IT員工可以做一些不同的事情。
解決系統(tǒng)硬件問題并不容易,使用多種策略改進系統(tǒng)修復的響應性和效率。
集合資源考慮到不同工作負載的需求,與服務供應商制定不間斷維護協(xié)議。例如,一個關(guān)鍵任務服務器需要一個60分鐘或者是更快響應窗口的服務合同,一年不間斷運行(24/7/365)。次要的系統(tǒng)只需要兩小時或者是四小時的窗口服務。服務合同是昂貴的,所以應有根據(jù)的選擇覆蓋范圍。
當內(nèi)部IT員工需要執(zhí)行服務時、實施明確的指令鏈和逐步升級模式,能夠使監(jiān)測和報表工具立即為合適的團隊成員發(fā)送警報。服務器修復的最慢方案是向管理程序發(fā)送信息,然后等待人工授權(quán)。保持警報系統(tǒng)及時了解員工的變化。
這個方案的目標是將每一個問題一經(jīng)發(fā)現(xiàn)就解決。服務票務系統(tǒng),適合大型數(shù)據(jù)中心,集成了例行服務請求的緊急報告。這個票務過程優(yōu)先考慮并簡化IT員工工作流。有效地幫助解決任務。
倉庫訓練
庫存清單上的零件都很昂貴且容易產(chǎn)生問題,所以使用零件追蹤系統(tǒng)或者其他庫存控制系統(tǒng)來跟蹤備用零件或者組件升級。使用變更管理系統(tǒng)集成庫存資產(chǎn),所以服務器升級時可以有記錄、有基準。這保存了應用和內(nèi)部服務級別協(xié)議(SLA)的用途。許多的服務臺系統(tǒng)和故障報告表系統(tǒng)都包含存貨清單特性。
系統(tǒng)文件是第一個丟失的東西,丟失文件嚴重地阻礙了適時修復。管理員需要維護所有系統(tǒng)文件和原始軟件安裝媒介,或者至少保存主機電子文件的一列網(wǎng)址、驅(qū)動或者是軟件升級等等。當問題發(fā)生的幾分鐘后,這些舉措可以節(jié)省時間。
對于老式服務器來說備用零件極其難找——而且極其昂貴,即使一臺服務器能夠在折舊之后持續(xù)充分地支持工作負載,修復也是問題重重。
服務器改變推進硬件修復服務器設計成可合并特性,如同組織精密的鐵軌,一旦服務器從機架中突出出來,技術(shù)人員可立即將服務器轉(zhuǎn)移到下面??梢暂p松打開服務器外圍,允許方便地訪問服務器組件,包括塑料空氣導風裝置、風扇和擴展卡支架,最小化工具需求。
最好的修復是你可以避免修復。在面臨錯誤時,服務器的回彈特性總是保持可能崩潰的老版本系統(tǒng)運行。然而回彈特性不能夠預防問題。它們通常能夠預防甚至是修改一個錯誤的災難性結(jié)果。
最早版本的回彈特性是雙備份電源供應。許多企業(yè)級服務器提供這個選擇。兩個模塊化電源運行,當一個失效時,另一個電源供應服務器直到已經(jīng)失效的模塊被更換。更換可以通過‘熱備份’完成,不需要關(guān)閉系統(tǒng),而是通過虛擬化來實時遷移工作負載。但是出于對電源利用率的考慮,雙備份電源在今天已經(jīng)失去了吸引力。
服務器內(nèi)存恢復依賴于錯誤校驗碼和內(nèi)存熱備份。當工作存儲器模塊提示錯誤,可以通過空閑模塊重建內(nèi)容,直到失效的工作內(nèi)存空間內(nèi)容被更換(通常叫做‘熱交換’)。另一個選擇是保留主要工作內(nèi)存空間的副本。
CPU可靠性同樣加極大地得到改進。像Intel安騰處理器,可以從數(shù)據(jù)總線錯誤中恢復,當其他的致命錯誤發(fā)生時,可以重置服務器。最新的CPU支持步伐一致模式,多處理器比較程序信息,以確保計算操作的集成性。
服務器同樣使用很少依賴冷卻的低電源組件。除了服務器本身,虛擬化特性如實時遷移方法,保證了即使硬件失效也不會停止計算工作負載。群集和備份虛擬機意味著數(shù)據(jù)中心可以托管關(guān)鍵工作負載的多個副本,以避開硬件停機時間。虛擬工作負載使硬件定期維護進度變得容易,因為工作負載可以使用其他機器上的現(xiàn)有資源。
當你在外部供應商方處托管工作負載時,維護就變成了供應商的責任。這些外包供應商在問題發(fā)生時通常隨意考慮或者“盡最大努力”修復窗口。這可能導致組織機構(gòu)在沒有SLA重要資源的情況下延長停機時間。這就是為什么許多IT廠商選擇在內(nèi)部保留關(guān)鍵工作負載主要的原因,他們需要控制環(huán)境方面的練習。