如何對服務(wù)器進(jìn)行故障排除

責(zé)任編輯:editor004

2014-12-18 10:47:50

摘自:TechTarget中國

服務(wù)器故障排除是一門精細(xì)的工藝,但也有一些方法和技巧可以把這件事情變得簡單和快速。ITIL方法深入研究如何解決服務(wù)器故障或相關(guān)問題,但總的主旨是盡可能快速和有效地縮小問題范圍。

服務(wù)器故障排除是一門精細(xì)的工藝,但也有一些方法和技巧可以把這件事情變得簡單和快速。

ITIL方法深入研究如何解決服務(wù)器故障或相關(guān)問題,但總的主旨是盡可能快速和有效地縮小問題范圍。

退一步想想如何從邏輯上解決中斷期間的問題。例如,如果有用戶抱怨不能訪問一些東西,看看其他用戶有沒有相同的問題,這樣可以消除本地某個具體終端用戶設(shè)備問題的可能性。

以下全方面指南旨在幫你考慮故障診斷流程和過程。請結(jié)合你自己的指導(dǎo)原則和技術(shù)優(yōu)勢使用。

問題普遍存在嗎?

你需要的第一條信息是停機(jī)或效率變慢發(fā)生的范圍以及產(chǎn)生了什么樣的影響。就像是網(wǎng)絡(luò)問題可能是因為踩線而影響了一臺PC或小的群集。

如果同一問題影響到了多位用戶,可以排除環(huán)境變量,比如本地PC上的軟件誤操作或硬件問題。

如果你有多個網(wǎng)站,它們?nèi)渴苡绊憜??這樣可以確定問題是否在于本地服務(wù)器。

是服務(wù)器引起的問題嗎?

不同的部門之間傾向于相互指責(zé)。系統(tǒng)管理員會將服務(wù)前臺緩慢的應(yīng)用程序響應(yīng)歸咎于網(wǎng)絡(luò);網(wǎng)絡(luò)管理員抱怨存儲區(qū)域網(wǎng)絡(luò)(SAN);存儲管理員指責(zé)軟件部門。如果你正在解決一個問題——尤其是像應(yīng)用程序變慢這類無法確定原因所在的問題——那么,確定數(shù)據(jù)中心里哪些區(qū)域的基礎(chǔ)設(shè)施受到了影響。當(dāng)多個服務(wù)器和應(yīng)用程序發(fā)生故障,通常可以排除服務(wù)器問題,真正的問題可能來自網(wǎng)絡(luò)或存儲陣列。虛擬化環(huán)境中,檢查所有受影響的虛擬機(jī)的物理主機(jī)位置,確保它們沒有共享受損的硬件。

通過排除,結(jié)果最終通常會指向某個明確的罪魁禍?zhǔn)?,但并非總是如此。發(fā)現(xiàn)問題的共性,嘗試不同的因素組合,以縮小可能性。例如,問題可能源于文件共享時復(fù)制時間過長。如果在相同站點上,從一臺服務(wù)器復(fù)制到另一臺服務(wù)器時,是否也很緩慢?如果是的話,可排除廣域網(wǎng)絡(luò)的嫌疑。在服務(wù)器上的本地磁盤之間復(fù)制過程是否緩慢?如果是的話,可排除SAN或局域網(wǎng)的嫌疑。如果你不得不使用數(shù)據(jù)包捕獲

或輸入/輸出(I/O)速度測試,故障排除可能需要很長時間。

文檔

文檔是一個非常有價值的故障診斷工具,可輕松訪問你的環(huán)境的拓?fù)?,并了解?yīng)用程序是如何工作的,讓你能夠迅速排除服務(wù)器問題。

你需要有扎實的數(shù)據(jù)中心操作知識,并拷問自己幾個重要的問題:每個應(yīng)用程序涉及多少臺服務(wù)器?基本的網(wǎng)絡(luò)設(shè)置是什么?當(dāng)前是什么基礎(chǔ)設(shè)施?這些問題很有價值。例如,如果你有兩臺應(yīng)用服務(wù)器供客戶端通過循環(huán)DNS訪問,同時你的一半用戶反饋有問題。你從一開始就知道一半的用戶連接到各自的服務(wù)器,因此你不會將時間浪費到另外一臺服務(wù)器上并試圖解決問題。

溝通

溝通是診斷服務(wù)器故障的關(guān)鍵。例如你的同事昨晚更改了服務(wù)器設(shè)置,結(jié)果第二天一些東西無法使用。你需要了解做了哪些更改,因為這可能就是原因所在。大型企業(yè)有正式的改革形勢,涉及到每個人,但并不是所有的IT小組都會享受(或者阻礙,這得看你怎么看待這件事了)的。

當(dāng)一個新的應(yīng)用程序或其他項目改變投入生產(chǎn)時,溝通可以幫助數(shù)據(jù)中心團(tuán)隊做好準(zhǔn)備并積極地檢查環(huán)境。否則當(dāng)終端用戶開始抱怨應(yīng)用無法正常工作的時候,你不得不詢問新應(yīng)用程序的部署和資源需求等情況。

監(jiān)控

在對服務(wù)器進(jìn)行故障排除時,對正在進(jìn)行的操作進(jìn)行完整的描述可以幫助節(jié)省時間。

市場上有很多監(jiān)控工具用于不同規(guī)模和架構(gòu)的數(shù)據(jù)中心。正確配置之后,它們會跟蹤關(guān)鍵指標(biāo),如延遲和I/O速度等。監(jiān)控工具還會提醒你潛在的有用的信息,例如一個只剩1%磁盤空間的驅(qū)動器將要導(dǎo)致服務(wù)器問題。

很多產(chǎn)品還會對服務(wù)進(jìn)行監(jiān)控,因此如果某個關(guān)鍵服務(wù)崩潰或中斷,監(jiān)控工具會發(fā)出警告或自動按照已設(shè)置的規(guī)則嘗試重啟。

檢查日志

令人驚訝的是,服務(wù)器和相關(guān)的日志常常被忽視。

當(dāng)出現(xiàn)問題時,技術(shù)人員認(rèn)為他們知道問題出自哪里,并且會花好幾個小時來證明他們的正確性。但是如果他們花上幾分鐘的時間檢查一下日志,會發(fā)現(xiàn)已記錄下來的確切的問題。例如,如果你知道正在交互的兩件事情以及它們的賬戶,就能夠很容易解決許可問題。

查看微軟Windows中的Event Viewer日志或Unix/Linux服務(wù)器上的系統(tǒng)記錄,這上面顯示了警告和錯誤。應(yīng)用程序日志也值得一看,因為它們通常包含錯誤的數(shù)據(jù),為你指向正確的根本方向。

支持

有些管理員調(diào)用供應(yīng)商和日志記錄,但最好不要這樣做。檢查基礎(chǔ)事項之后,花幾分鐘調(diào)用日志,而不是直到停機(jī)幾個小時后再這樣做。

在解決事情之前不要著急,檢查數(shù)據(jù)中心供應(yīng)商支持的服務(wù)水平協(xié)議。如果你的供應(yīng)商直到第二個工作日都沒主動聯(lián)系你,記錄問題可以盡早避免一個令人沮喪的夜晚。

許多供應(yīng)商網(wǎng)上有具體說明如何解決服務(wù)器問題。從知識庫和在線論壇中檢查供應(yīng)商的資源。

不能排除服務(wù)器問題并且在前五分鐘內(nèi)解決問題著實會令人沮喪,但是不要害怕尋求幫助。充足的準(zhǔn)備、溝通和對環(huán)境的理解是拯救錯誤的有利工具。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號