企業(yè)網(wǎng)D1Net 11月27日 在數(shù)據(jù)中心運(yùn)行過程中,不可避免會出現(xiàn)各種各樣的問題。若網(wǎng)絡(luò)發(fā)生信息不通、網(wǎng)頁不能瀏覽等連通性故障時,這類故障現(xiàn)象的故障點很容易檢查和定位,解決起來并不困難。但是網(wǎng)絡(luò)如果是通的,而網(wǎng)速變慢。遇到這種“軟”故障,就比較令人頭痛,有的人往往就會束手無策。一旦遇到這類問題時,需要有一個定位問題的基本思路,這樣就能幫助我們在日常維護(hù)中有條不紊地找到問題的真實原因。
第一:檢查設(shè)備CPU占用率。數(shù)據(jù)中心里的設(shè)備少則數(shù)百,多則上萬,不可能都去依依檢查CPU。需要先明確哪個業(yè)務(wù)慢,了解這個業(yè)務(wù)在數(shù)據(jù)中心里需要經(jīng)過哪些設(shè)備,然后檢查這些設(shè)備的CPU占用率。當(dāng)然如果有網(wǎng)管軟件,通過設(shè)定CPU閾值,可以監(jiān)控所有設(shè)備的CPU占用率,則可以很快發(fā)現(xiàn)CPU異常的設(shè)備。一般如果設(shè)備CPU占用率在40%以下,則可以跳過這項,直接檢查第二步,如果在60%以上的話,建議您最好看一下。一般是設(shè)備受到了網(wǎng)絡(luò)攻擊。有的時候網(wǎng)絡(luò)攻擊不僅影響網(wǎng)速慢,甚至?xí)袛鄻I(yè)務(wù)。網(wǎng)管可以監(jiān)控可疑的端口,網(wǎng)絡(luò)流量異常的這一段時間,通過網(wǎng)絡(luò)流量變化會看到突起突落,明顯的人為痕跡。根據(jù)對以上可疑現(xiàn)象的分析,初步定位網(wǎng)絡(luò)業(yè)務(wù)中斷事故是人為攻擊造成,采集了網(wǎng)絡(luò)流量急劇上升時的異常流量,證明的確是有網(wǎng)絡(luò)攻擊。針對網(wǎng)絡(luò)攻擊也有進(jìn)一步的排查方法,在此不一一詳述。
第二:日志信息和其它異常信息。現(xiàn)在的電子設(shè)備可維護(hù)性都比較好,運(yùn)行出現(xiàn)異常時都會有一些信息打印,以便提示用戶設(shè)備出了問題,便于用戶采取解決問題的措施。設(shè)備日志、異常記錄等對于診斷問題愿意非常有用,一些比如端口DOWN、配置錯誤、硬件問題等簡單故障,通過打印出來的信息就可以明確。對于廣播流量較多的數(shù)據(jù)中心,要注意設(shè)備的端口流量是否有異常,是否可能出現(xiàn)了網(wǎng)絡(luò)環(huán)路,網(wǎng)絡(luò)環(huán)路是在數(shù)據(jù)中心經(jīng)常發(fā)生的網(wǎng)絡(luò)故障。主要是由于設(shè)備故障、STP/RRPP等二層環(huán)路協(xié)議失效、人為錯誤配置所致。這類問題通過觀察端口的流量很好排除。因此,要檢查這些設(shè)備的日志和異常信息記錄。
第三:利用PING來檢驗業(yè)務(wù)是否正常。PING是用來診斷網(wǎng)絡(luò)故障最簡單明了的手段,現(xiàn)在網(wǎng)絡(luò)上流行的Xping、Multiping、網(wǎng)管軟件等都是基本PING功能實現(xiàn)的,通過PING業(yè)務(wù)沿路的各個設(shè)備就可以迅速判定故障設(shè)備。一般PING的結(jié)果基本會顯示出哪個設(shè)備可能存在網(wǎng)絡(luò)問題。
第四:檢查端口雙工的狀態(tài)。服務(wù)器的網(wǎng)卡、網(wǎng)絡(luò)設(shè)備端口、防火墻端口等設(shè)備的工作方式可以為全雙工或半雙工。當(dāng)服務(wù)器、交換機(jī)的工作狀態(tài)不匹配,如服務(wù)器、工作站網(wǎng)卡被設(shè)置為全雙狀態(tài),而交換機(jī)等都工作在半雙工時,就會產(chǎn)生大量碰撞幀和一些FCS校驗錯誤幀,訪問速度將變得非常慢。從服務(wù)器上拷貝一個100Mb的文件可能需要30分鐘,所以網(wǎng)速變慢也要檢查下設(shè)備端口雙工是否存在不一致的問題。
第五:檢查網(wǎng)線、光纖、光模塊這些互連器件的問題。網(wǎng)線的制作方式對網(wǎng)絡(luò)傳輸速度的影響是非常大的,如果不按照正規(guī)的標(biāo)準(zhǔn)制作網(wǎng)線,那么來自網(wǎng)線自身的背景噪音以及內(nèi)部串?dāng)_就會降低網(wǎng)絡(luò)傳輸速度。還有光纖和光模塊如果質(zhì)量不佳,容易產(chǎn)品大量的錯包,影響網(wǎng)速。還要的光模塊收發(fā)功率不穩(wěn)定,導(dǎo)致傳輸?shù)臄?shù)據(jù)出現(xiàn)問題,這些故障都是容易影響網(wǎng)速慢的最常見的原因。在數(shù)據(jù)中心里,幾乎天天都會有更換網(wǎng)線、光纖或光模塊的工作。這些都是易消耗的器件。
第六:端口UP/DOWN問題。如果出現(xiàn)了端口的UP/DOWN,自然會引起業(yè)務(wù)時斷時續(xù),網(wǎng)速就慢。造成端口出現(xiàn)UP/DOWN的原因也可能是多方面的。比如:光纖架、跳線架有問題,鏈路質(zhì)量不好;網(wǎng)線,光纖出了問題;設(shè)備兩端配置速率雙工不一致等等都會造成端口的UP/DOWN,一般的設(shè)備端口出現(xiàn)了UP/DOWN都會有記錄,或者在網(wǎng)管上有記錄,這樣用戶就可以通過檢查記錄,迅速排除掉故障。
第七:對比測試。通過業(yè)務(wù)測試。比如玩?zhèn)髌嬗螒蚩ǎ嫫渌螒驔]有問題,那一般是傳奇服務(wù)器的問題。另外為何明確故障問題,還可以在上游設(shè)備上的一個業(yè)務(wù)端口下FTP本地網(wǎng)絡(luò)的一個大文件,在本地設(shè)備上的一個業(yè)務(wù)口下同時FTP同一網(wǎng)站的同一電影文件,比較下載速度,立刻可以知道本地設(shè)備有沒有問題。
第八:檢查是否應(yīng)用服務(wù)器是否有病毒。蠕蟲、紅色代碼、藍(lán)色代碼、尼姆達(dá)等病毒,可使計算機(jī)運(yùn)行變慢,造成網(wǎng)絡(luò)堵塞。如蠕蟲病毒對網(wǎng)絡(luò)速度的影響嚴(yán)重,危害性極大。這種病毒導(dǎo)致被感染的用戶只要一上網(wǎng)就不停地往外發(fā)郵件,成百上千的這種垃圾郵件有的排著隊往外發(fā)送,有的又成批成批地被退回來堆在服務(wù)器上,造成服務(wù)器繁忙或者數(shù)據(jù)中心網(wǎng)路擁塞,網(wǎng)速變慢。所以需要在數(shù)據(jù)中心內(nèi)部署防火墻設(shè)備,在服務(wù)器上安裝殺毒軟件,并保持實時更新。周期性地檢查服務(wù)器是否有中病毒的情況。
網(wǎng)速慢是一個比較復(fù)雜問題,隨著網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大和應(yīng)用的復(fù)雜,網(wǎng)絡(luò)安全問題越來越多,這類問題也越來越不好分析。對于出現(xiàn)網(wǎng)速變慢的故障時,可以采用以上的八個步驟去逐一排查,在絕大多數(shù)情況下,都可以解決問題。如果通過這些步驟仍找不出異常的地方,那就需要專業(yè)的技術(shù)人員深入分析了,可能需要資深的網(wǎng)絡(luò)專家或者設(shè)備廠家的工程師進(jìn)一步深入排查??傊?,只要是問題總會露出一些蛛絲馬跡,我們這些數(shù)據(jù)中心的工程師不是在時刻準(zhǔn)備著解決問題,就是在解決問題的路上。