我們經(jīng)常會(huì)看到一些帖子介紹管理員在虛擬環(huán)境中應(yīng)該做哪些事,這里羅列一些你應(yīng)該避免去做的事情。
到目前為止,我寫的大多數(shù)指南都提到了用戶應(yīng)該做些什么以便更好地維護(hù)VMware?,F(xiàn)在來(lái)看看用戶不應(yīng)該做哪些事。一些VMware錯(cuò)誤雖然數(shù)量龐大,影響工作,但仍然可以修復(fù)。
這篇文章介紹的技巧并不全面,系統(tǒng)管理員可以作為參考,或許適用于基礎(chǔ)設(shè)施。
也許我可以提供最簡(jiǎn)單的技巧之一,就是通過(guò)客戶端(web或胖客戶端)關(guān)閉主機(jī)時(shí),不要通過(guò)SSH控制臺(tái)重新啟動(dòng)。是的,這可以做到的,如果主機(jī)處于維護(hù)模式不應(yīng)該有任何問(wèn)題。唯一的問(wèn)題是,我重啟了錯(cuò)誤的主機(jī)。幸好受影響的主機(jī)也在維護(hù)模式下。我得到了教訓(xùn)。雖然更耗費(fèi)時(shí)間,但它更安全,也是有用的完整性檢查。
集群準(zhǔn)許政策是一個(gè)經(jīng)常被忽視的VMware領(lǐng)域,人們也常常使用不當(dāng)。理解它的工作原理至關(guān)重要。如果管理員希望關(guān)閉集群準(zhǔn)許政策,確保系統(tǒng)有足夠的能力隨時(shí)應(yīng)對(duì)來(lái)自最大主機(jī)故障的負(fù)載。很少的主機(jī)負(fù)載大量虛擬機(jī)的做法并不可取。
企業(yè)經(jīng)常使用高端服務(wù)器并用負(fù)載100多個(gè)虛擬機(jī)的主機(jī)包裝它們。開始還行,直到你由于某種原因或主機(jī)崩潰需要把主機(jī)調(diào)成維護(hù)模式。重新啟動(dòng)其他集群的100個(gè)虛擬機(jī)將對(duì)基礎(chǔ)設(shè)施造成巨大壓力并帶來(lái)潛在的I/O風(fēng)暴。對(duì)于虛擬機(jī)的數(shù)量還有一個(gè)硬性限制,可以重新啟動(dòng)一次。這意味著一些服務(wù)器需要排隊(duì)才能重新啟動(dòng)。服務(wù)器需要在新的主機(jī)上等待重啟,導(dǎo)致停機(jī)時(shí)間延長(zhǎng)。
只對(duì)一個(gè)主機(jī)使用存儲(chǔ)本地的做法更糟糕。這樣做意味著虛擬機(jī)連接一個(gè)單獨(dú)的主機(jī)是有效的。當(dāng)主機(jī)出現(xiàn)故障時(shí),虛擬機(jī)不能在另一個(gè)主機(jī)啟動(dòng),存儲(chǔ)也不可用。
還有些人把“人造”集群放到VMware的環(huán)境中。這時(shí)通常需要一個(gè)共享SCSI總線,因此所有虛擬節(jié)點(diǎn)必須駐留在相同的物理主機(jī),這打破了書中的每一個(gè)HA(高可用性集群)的設(shè)計(jì)規(guī)則。
單臺(tái)主機(jī)的損失意味著整個(gè)集群的失敗。這可能是一個(gè)適合開發(fā)的環(huán)境,但在生產(chǎn)環(huán)境中使用它是有風(fēng)險(xiǎn)的。同樣,VMware容錯(cuò)(FT)并非避免集群?jiǎn)栴}的萬(wàn)全之策。采用FT時(shí),CPU的局限性仍然是一個(gè)主要限制。
再來(lái)說(shuō)說(shuō)更復(fù)雜的VMware錯(cuò)誤,主要版本更新有時(shí)會(huì)引發(fā)問(wèn)題。在升級(jí)期間的失敗——尤其是如果使用外部數(shù)據(jù)庫(kù)主機(jī),不一定會(huì)阻止用戶工作。沒(méi)有集中管理就更困難了。
連快照都無(wú)法拯救你。當(dāng)你升級(jí)時(shí),數(shù)據(jù)庫(kù)模式通常是升級(jí)?;貪L后將數(shù)據(jù)庫(kù)置于危險(xiǎn)境地,更有可能的是,你的vCenter數(shù)據(jù)庫(kù)將被當(dāng)成垃圾。如果你能夠回滾,vCenter和數(shù)據(jù)庫(kù)表的恢復(fù)備份是唯一出路。這是VMware建議在升級(jí)時(shí)不能做的原因之一,從另一方面說(shuō)明vCenter設(shè)備更容易直接升級(jí)。
如果有問(wèn)題的網(wǎng)站使用自動(dòng)精簡(jiǎn)配置,它只能設(shè)置用于存儲(chǔ)陣列或VMware的一側(cè)。兩側(cè)都用意味著正在運(yùn)行自動(dòng)精簡(jiǎn)配置的兩倍,如果大意了,管理就失敗了。你應(yīng)該使用相同的存儲(chǔ)設(shè)置集群寬度。
最后許多新秀管理忽視的是硬件兼容性列表(HCL),它詳細(xì)說(shuō)明了VMware支持的硬件配置。盡管公平地說(shuō),大多數(shù)硬件工作沒(méi)有問(wèn)題,如果你沒(méi)有按照HCL使用硬件,那就只能看人品了。主機(jī)出現(xiàn)故障甚至情況更糟并不是你想要聽到的。收拾受傷的心并確保你按照HCL購(gòu)買硬件。
還有許多需要注意的事,我只是拋磚引玉。常識(shí)是管理員的最佳工具,緊隨其后的是在實(shí)踐過(guò)程中保持謹(jǐn)慎。除此之外,也要時(shí)刻積累經(jīng)驗(yàn),有時(shí)VMware錯(cuò)誤是不可避免的。