避免關鍵數(shù)據(jù)中心出現(xiàn)故障始終是頭等重要的任務。如果短時間的停機可能會對業(yè)務的市場價值產(chǎn)生負面影響,那么,支持這個網(wǎng)絡環(huán)境的物理基礎設施就一定要可靠。
如何才能確信自己實施的解決方案是可靠的?MTBF(MTBF,MeanTimeBetweenFailure,即平均無故障時間)是比較可靠性最常用的方式。不過,如果沒有透徹地了解MTBF,可能就無法實現(xiàn)業(yè)務可靠性目標。如果故障定義不明確或者假設不現(xiàn)實或被曲解,MTBF就毫無意義。
本文說明應如何使用MTBF以及將MTBF用作規(guī)格和選擇依據(jù)時的限制。本文還提供一個核對表,作為確保公平有效地進行跨系統(tǒng)比較的指導性原則。
一、MTBF的比較性分析的現(xiàn)實方式
預測MTBF有多種可用方法,似乎不可能找到使用同一方法的兩個系統(tǒng)。不過,還是有一種方法可以適用于大多數(shù)組織的各種不同過程。
現(xiàn)場數(shù)據(jù)評估方法使用實際的現(xiàn)場故障數(shù)據(jù),因此能夠提供比模擬情況更準確的故障率評估。對于小批量生產(chǎn)的產(chǎn)品或新產(chǎn)品,此數(shù)據(jù)可能找不到;不過,對那些已在現(xiàn)場獲得廣泛應用的產(chǎn)品,應該始終采用此數(shù)據(jù)。因此,對于跨系統(tǒng)比較,從現(xiàn)場數(shù)據(jù)評估開始比較是最合理也是最現(xiàn)實的。請注意,此方法與其他許多方法一樣,都是基于第78號白皮書中討論的穩(wěn)定故障率假設。
本白皮書介紹完成此方法的步驟,列舉并說明各個步驟中可能影響結果的可變因素。如果要進行比較的系統(tǒng)間的關鍵假設或可變因素發(fā)生變化,那么評估這些變化對MTBF估計結果的可能影響就非常重要。圖1說明現(xiàn)場數(shù)據(jù)評估過程的時間線。隨后的過程步驟將說明時間線中的每個元素。
圖1 現(xiàn)場數(shù)據(jù)評估過程的時間線
第1步:定義并估計抽樣總體的大小
確定年故障率(AFR)并最終確定產(chǎn)品的MTBF的過程中,第一步是確定要分析的特定產(chǎn)品抽樣總體。是基于特定產(chǎn)品型號還是整個產(chǎn)品系列進行計算?此抽樣總體中產(chǎn)品的生產(chǎn)時間跨度應該多大(以天或月計)?生產(chǎn)日期何時開始何時結束?為抽樣總體選擇的產(chǎn)品應該在設計方面非常相似,并具有足夠多的數(shù)量以保證所采集數(shù)據(jù)的統(tǒng)計有效性,這非常重要。
第2步:確定采集數(shù)據(jù)的樣本時間范圍
過程的第二步是確定從抽樣總體中采集故障數(shù)據(jù)的樣本時間范圍。通常在產(chǎn)品的用戶給供應商報告故障時采集數(shù)據(jù)。抽樣總體中產(chǎn)品的最晚生產(chǎn)日期和樣本期間開始日期之間的適合時間間隔,因產(chǎn)品、地理位置、分銷過程和庫存地點不同而有所差異。例如,如果產(chǎn)品在工廠倉庫中儲存兩個月,在分銷渠道中歷時兩個月,那么最早只能在抽樣總體中最晚產(chǎn)品生產(chǎn)日期的四個月后開始進行抽樣。對于需要通過批發(fā)商、經(jīng)銷商和零售商這些環(huán)節(jié)的產(chǎn)品,四個月被視為是考慮上述可變因素的合理時間范圍。
下面說明兩個重要的可變因素:(1)抽樣總體中產(chǎn)品的最晚生產(chǎn)日期和樣本期間開始日期之間要有足夠的時間間隔;(2)數(shù)據(jù)采集窗口要足夠大,以確保結果的可信度。
如果抽樣總體中產(chǎn)品的最晚生產(chǎn)日期和樣本期間開始日期之間沒有足夠的時間間隔,那么在抽樣總體中的產(chǎn)品得到完全部署之前可能就已經(jīng)開始進行抽樣了。這種情況可能會造成兩種結果。第一,由于尚未部署的產(chǎn)品不可能出現(xiàn)故障,所以有低估故障率的傾向。第二種結果就是樣本期間很可能包括大量的安裝故障或設置故障。因為新產(chǎn)品的故障率可能會顯示為一個標準的“浴缸”型,所以包括大量安裝故障可能會導致高估故障率。盡管我們知道這兩種相反的效果都很明顯,但也不能指望他們能互相抵消。
在抽樣時間方面,另一個需要考慮的重要問題是窗口的持續(xù)時間。需要多少天才能充分采集故障數(shù)據(jù)?采樣時間窗口必須選得足夠寬,以便可以從樣本中移除統(tǒng)計“干擾”。獲得合理準確度所需的持續(xù)時間取決于抽樣總體的大小。例如,大批量產(chǎn)品可能需要一個月時間,小批量產(chǎn)品可能需要幾個月時間。
第3步:定義故障
必須準確定義故障,確保評估過程的一致性后,才能開始統(tǒng)計故障。
現(xiàn)在假設在“故障”產(chǎn)品返回工廠時,是由每個技術人員單獨定義故障。某位技術人員可能只統(tǒng)計那些出現(xiàn)重大故障的產(chǎn)品,而另一位技術人員可能統(tǒng)計所有出現(xiàn)了故障(包括重大故障)的產(chǎn)品。這兩種極端的做法使得準確評估特定產(chǎn)品故障率的可能性幾乎為零,當然更不能準確評估對該產(chǎn)品的過程控制所產(chǎn)生的影響。因此,在診斷任意產(chǎn)品之前,供應商必須對故障有一個明確的定義。在計算特定事件的MTBF時,供應商可能有多種不同的故障定義。例如,UPS供應商會試圖評估導致關鍵負載停用的故障的MTBF以及負載能夠繼續(xù)運轉的不很嚴重的故障的MTBF。
第4步:接收、診斷和修理產(chǎn)品
樣本期間結束時間和AFR計算時間之間必須有足夠的時間間隔,以允許一定的時間來接收、診斷和修理報告為有故障的產(chǎn)品。診斷結果確定故障類型,而修理將會驗證診斷結果。體積較小的產(chǎn)品通常會發(fā)回供應商處,這會導致出現(xiàn)接收延遲或需要一定的產(chǎn)品遞送時間。產(chǎn)品到達供應商處后,必須對其進行診斷和修理,這會導致另一個稱為診斷延遲的延遲。大型產(chǎn)品通常在客戶處進行診斷和修理,因此基本沒有延遲。在上述任一情況下,都需要在計算AFR前診斷和修理產(chǎn)品。
如果是大批量產(chǎn)品,很可能在診斷延遲結束時仍然有需要修理的產(chǎn)品。在這些情況下,有時會做出未修理產(chǎn)品和以前修理過的產(chǎn)品出現(xiàn)故障的機率相等這樣的假設。取決于待評估產(chǎn)品的生產(chǎn)量和產(chǎn)品類型,接收延遲和診斷延遲可以在樣本期間結束時間后加上幾個星期,您可以在此時間點計算AFR。
第5步:計算年故障率
計算年故障率是用來說明某個特定產(chǎn)品在一個日歷年度內(nèi)的預期故障數(shù)。計算此數(shù)值的第一步是“按年計算”故障數(shù)據(jù)。將樣本期間中的故障數(shù)乘以每年的樣本期間數(shù),可以得出此值。第二步就是確定整個抽樣總體的故障率。將計算出來的每年故障數(shù)除以抽樣總體期間安裝的產(chǎn)品數(shù),可以得出此值。下面是公式1:
此公式有如下兩個假設:(1)產(chǎn)品一年365天、每天24小時連續(xù)運轉(2)抽樣總體中的所有產(chǎn)品都在同一時間開始運轉。因此盡管此公式可以用于任意產(chǎn)品,但更適用于連續(xù)運轉的產(chǎn)品。如果已知要安裝的產(chǎn)品是間斷運轉的,那么使用公式2計算AFR更準確。備用的應急發(fā)電機系統(tǒng)就是這種類型產(chǎn)品的一個示例。
使用此公式,AFR僅考慮產(chǎn)品實際運轉的時間。實際上,公式1和公式2是不同假設條件下的同一公式。下面的假想示例說明當分析一個非連續(xù)運轉產(chǎn)品時二者的差別有多大:
本抽樣總體有10,000輛汽車。在2個月(樣本期間)內(nèi),要采集此抽樣總體的故障數(shù)據(jù)。平均而言,一輛汽車每年運轉400個小時。在這2個月內(nèi),有10輛汽車出現(xiàn)故障。
使用公式1:
故障率為10個故障x(每年52個星期/樣本期間為8個星期)/抽樣總體中有10,000臺裝置=0.0065或0.65%。
使用公式2:假設這些產(chǎn)品同時*開始運轉,抽樣總體的運轉時間為每年10,000x400小時=每年累計4百萬小時或,000,000/8760小時=累計457年。故障率為10個故障x(每年52個星期/樣本期間為8個星期)/累計457年=0.14或14%
【請注意,此假設是為了簡化這個示例?,F(xiàn)實情況是產(chǎn)品在整個期間內(nèi)都有銷售,因此實際運轉時間將比上面的數(shù)字小,導致AFR值變大?!?/p>
如果上面的示例是以連續(xù)運轉產(chǎn)品為例,那么兩個AFR值將相等。即使取消所有產(chǎn)品同時開始運轉這個假設,AFR值仍然非常接近。因此,了解產(chǎn)品是連續(xù)運轉還是非連續(xù)運轉對于進行正確地分析至關重要。
第6步:將AFR轉換為MTBF
將AFR轉換為MTBF(以小時計)是所有步驟中最容易的,不過可能也是最常被誤解的。只有在故障率穩(wěn)定這一假設下,將AFR轉換為MTBF才有效。下面是此公式:
MTBF=一年內(nèi)的小時數(shù)/AFR=8760/AFR 公式3
使用AFR評估過程對MTBF計算結果抽樣
下面的假想示例有助于說明整個過程。
第1步:確定抽樣總體全部為“X”牌15kVAUPS系統(tǒng),是在2003年的第36周到第47周(9月1日至11月21日)生產(chǎn)的,生產(chǎn)窗口時長共12周。抽樣總體共2000臺裝置。
第2步:確定采樣窗口從2004年2月2日開始,至2004年7月16日結束。選擇這一采樣窗口時,考慮了在產(chǎn)品庫存和分銷過程中會有10周的延遲。
第3步:將故障定義為由任何原因(包括人為錯誤)引起的關鍵負載停用。
第4步:在樣本期間,總共報告了二十起故障。其中,九起故障被劃分為關鍵負載停用故障,其他故障為非關鍵故障。因此,根據(jù)第3步中確定的故障定義,下面計算中使用的故障數(shù)為九。已經(jīng)在計算AFR之前接收、診斷和修理了出現(xiàn)故障的產(chǎn)品。
第5步:AFR計算如下:
AFR=(9個故障*每年52個星期/樣本期間為24周)/抽樣總體中有2000臺裝置=0.00975=0.975%
第6步:MTBF計算如下:
MTRF=8760/AFR=8760/0.00975=898,462小時
二、影響AFR的可變因素
大多數(shù)情況下,用戶是從供應商處獲取MTBF值,不帶有任何用于證實這些數(shù)值的相關數(shù)據(jù)。如上所述,當查看多個系統(tǒng)的MTBF值(或AFR值)時,了解分析所用的隱含假設和可變因素(特別是定義故障的方式)非常重要。比較時若忽視了這一點,比較結果出現(xiàn)偏差的可能性就會變大,可能會出現(xiàn)500%或更高的偏差。最終可能導致不必要的業(yè)務支出甚至意外停機。
一般來說,必須有明確的可變因素定義、假設定義以及故障定義,才可以比較兩個或更多系統(tǒng)間的MTBF值。即使兩個MTBF值看起來很相似,仍然有比較結果出現(xiàn)偏差的可能。因此,必須弄清MTBF結果后面隱含的內(nèi)容,并仔細研究和領會這些數(shù)值所包含的含義。
下面將介紹每個可變因素,并說明他們可能對結果產(chǎn)生的影響。附錄中提供一個核對表,可以用于比較兩個或多個系統(tǒng)間的可變因素。完成比較后,必須再檢查一下核對表,以確定系統(tǒng)間有哪些不同的可變因素。通過逐一嚴格分析這些不同的可變因素及其對MTBF的影響,可以確定比較是否公正并可以作為產(chǎn)品規(guī)格或購買決策的關鍵標準。
產(chǎn)品功能、應用和邊界
在比較兩個或更多MTBF值之前,驗證被比較的兩個產(chǎn)品是否同類非常重要。被比較的產(chǎn)品必須在功能、性能及應用方面相似。如果被比較的產(chǎn)品是UPS,則產(chǎn)品功能就是為連接的負載提供備用電源。此產(chǎn)品的用途可能是用來支持數(shù)據(jù)中心環(huán)境中的關鍵IT負載。如果沒有相似的應用,就不可能進行公正的MTBF比較。例如,對工業(yè)用途和IT用途的UPS進行比較是不切合實際的。
更重要的是,MTBF比較中所用系統(tǒng)的邊界必須等同。如果各個系統(tǒng)的定義方式不同,那么不可避免地會出現(xiàn)比較偏差。我們以使用外部電池的UPS系統(tǒng)為例。某些供應商可能選擇不包括由這些電池導致的故障,因為他們位于系統(tǒng)“外部”,不是系統(tǒng)的一部分。其他供應商可能選擇包括電池故障,因為這些電池是系統(tǒng)運轉的必要組件。圖2說明此示例。其他可能導致不一致邊界的組件包括輸入和輸出電路斷路器、旁路系統(tǒng)、保險絲和控制系統(tǒng)。用戶應該向供應商咨詢MTBF計算中應包括哪些組件或子系統(tǒng),不應認為所有供應商定義系統(tǒng)的方式都相同。
圖2 比較UPS系統(tǒng)的“邊界”
穩(wěn)定故障率假設
要使計算AFR和MTBF的現(xiàn)場數(shù)據(jù)評估方法有效,必須假設被分析產(chǎn)品具有穩(wěn)定的故障率。很重要的一點就是要判明此假設對于被比較產(chǎn)品的類型是否合理。對于電子系統(tǒng)或組件,這個假設通??梢猿闪?。該產(chǎn)品是否屬于這一類?如果不屬于,計算出來的值可能不會是預期故障的代表性值,進行公正比較的可能性就很小。
抽樣總體大小
在明確產(chǎn)品及其應用非常相似后,很重要的一項工作就是審查現(xiàn)場數(shù)據(jù)采集過程。在這里,定義抽樣總體大小(生產(chǎn)的產(chǎn)品數(shù)量)是第一個關鍵的可變因素。如果抽樣總體中定義的產(chǎn)品數(shù)量太少,那么得出的MTBF估計值就很可能沒用。因此,比較MTBF值時,確保每個值都是基于足夠大的抽樣總體大小,這是非常重要的。
盡管被比較產(chǎn)品的生產(chǎn)率可能不同,但需要著重考慮的是抽樣總體中的產(chǎn)品數(shù)量。如果某個產(chǎn)品的生產(chǎn)率較低,那么此產(chǎn)品的生產(chǎn)時間范圍應該比較大,以便能夠達到一個合適的產(chǎn)品數(shù)量。例如,供應商“A”在一個月內(nèi)生產(chǎn)1000臺產(chǎn)品,而供應商“B”在一個月內(nèi)生產(chǎn)50臺“同類”產(chǎn)品。對于供應商“B”,抽樣總體中應包括若干個月生產(chǎn)的產(chǎn)品,以確保結果的統(tǒng)計有效性;對于供應商“A”,一個月內(nèi)生產(chǎn)的產(chǎn)品就夠了。
抽樣總體中產(chǎn)品的最晚生產(chǎn)日期和樣本期間開始日期之間的時間間隔如果抽樣總體范圍的結束時間和樣本采集期的開始時間之間沒有足夠的時間間隔,那么AFR和MTBF值可能是不準確的。被比較的每個系統(tǒng)的供應商必須為其抽樣總體提供足夠時間,以便在開始采集故障數(shù)據(jù)之前系統(tǒng)可以完成庫存及分銷過程。
例如,如果某個特定產(chǎn)品通常在庫房中存放一個月后,進入分銷過程(歷時一個月),那么評估故障前設定的最短時間應該是兩個月。總“等待”時間因產(chǎn)品類型而異。由于要進行比較的產(chǎn)品類型應該相似,所以總體期間和樣本期間之間的時間應該相似。如果某個供應商明顯沒有足夠的等待時間或根本沒有等待時間,那么他們的系統(tǒng)AFR可能會低于實際值,在比較這些值時要特別注意。
樣本數(shù)據(jù)采集期
正如在此過程第2步中所指出的那樣,選擇合適的樣本數(shù)據(jù)采集期非常重要。如果被比較的系統(tǒng)具有相同長度的采樣窗口,并且具有相似的生產(chǎn)量和/或銷售量,就可以進行公平比較。不過,情況并不總是這樣。如果各個系統(tǒng)的數(shù)據(jù)采集期時間不同,那么單獨地評估每個系統(tǒng),確定其是否能夠反映準確的故障率就很重要。
產(chǎn)品數(shù)量越少,窗口應該越長。例如,如果某個供應商每個月的產(chǎn)品產(chǎn)量為10臺,用一個月時間來采集故障數(shù)據(jù),時間就不充分。因為產(chǎn)品數(shù)量少,所以用這個月內(nèi)報告的故障(如果有)來推斷前幾個月的故障率,可信度很低。
故障定義
如果兩個可比較產(chǎn)品間的故障定義不同,那么進行故障分析就象比較蘋果和橙子一樣毫無意義。因此,要進行有效的MTBF比較,一項基本任務就是準確分析每個被比較產(chǎn)品的故障組成。因此,對于MTBF計算,供應商應該將哪些故障統(tǒng)計在內(nèi)?
將用戶誤用導致的故障統(tǒng)計在內(nèi)是否有用?設計者可能忽視了許多人為因素,這將導致用戶很容易誤用產(chǎn)品。
在電源保護行業(yè)中,UPS故障的最常見“定義”是“負載停用”故障。這表示向負載供電超出了可接受范圍,導致了負載停止運轉。不過,將由供應商維修技術人員導致的負載停用統(tǒng)計在內(nèi)是否有用?產(chǎn)品設計本身是否會提高風險程序出現(xiàn)故障的可能性?
如果計算機上的LED(發(fā)光二級管)出現(xiàn)故障,是否屬于故障(雖然它沒有影響計算機的運行)?
如果耗材(例如電池)的使用期比預期的時間要短,是否屬于故障?
運輸造成的損壞是否屬于故障?這可能表明包裝的設計不當。是否將重復出現(xiàn)的故障統(tǒng)計在內(nèi)?也就是說,對于同一用戶使用的同一系統(tǒng)內(nèi)診斷結果相同的故障,是重復計數(shù)還是僅計數(shù)一次?
安裝過程導致的故障是否統(tǒng)計在內(nèi)?此故障可能是供應商技術人員引起的。如果用戶沒有購買推薦的維護合同或監(jiān)視系統(tǒng),是否將故障統(tǒng)計在內(nèi)?如果地震導致建筑物損害,使得系統(tǒng)出現(xiàn)故障,是否將故障統(tǒng)計在內(nèi)或將其視為“天災”?
是否將系統(tǒng)外某些組件的故障統(tǒng)計在內(nèi)?對于UPS系統(tǒng),系統(tǒng)外組件可能是電池或旁路開關。如果出現(xiàn)連鎖故障,導致后續(xù)系統(tǒng)停機,是將每個系統(tǒng)的故障都統(tǒng)計在內(nèi)還是僅統(tǒng)計第一個系統(tǒng)的故障?
如果某個系統(tǒng)進行了“自定義”設置,是否將該系統(tǒng)的故障從抽樣總體中排除?
工業(yè)中用來計算MTBF的實際故障定義可能會有一些衍生情況。上面列出的只是一小部分。因為將許多異常情況統(tǒng)計為故障,所以MTBF值所反映的系統(tǒng)性能比實際使用情況更可靠。要為合作伙伴和用戶提供AFR和MTBF值,比較MTBF值時需要一個明確的故障定義。
有三個直觀定義:
類型0 該產(chǎn)品有一個妨礙其運轉的缺陷或故障。
類型I 產(chǎn)品整體失效,無法實現(xiàn)其所應實現(xiàn)的功能。
類型II個別組件失效,無法實現(xiàn)其應實現(xiàn)的功能,但不是產(chǎn)品整體失效,無法實現(xiàn)該產(chǎn)品應實現(xiàn)的功能。
除了了解每個供應商選擇的定義,還必須明確是否包括人為故障。在MTBF計算要包括人為失誤的情況下,比較MTBF值可能更困難。這是因為有多種可能導致故障的人為失誤,使得供應商需要篩選出與人為失誤相關的故障。如果所有供應商都沒有篩選出相同類型的故障,那么系統(tǒng)比較結果就很值得懷疑。
要說明這一點,我們?nèi)匀灰陨厦娴?ldquo;X”牌產(chǎn)品為例。表1比較當存在不同的故障定義時的MTBF值。
系統(tǒng)“A”是“X”牌產(chǎn)品,其故障被定義為嚴重(類型I)故障,包括所有人為失誤和耗材故障類型。系統(tǒng)“B”是同一“X”牌產(chǎn)品。其故障同樣為僅有類型I故障,但不包括人為失誤導致的故障、連鎖故障以及耗材故障。根據(jù)MTBF公式的性質(zhì),在樣本期間即使一個故障差額也可能對MTBF結果產(chǎn)生很大影響。在此示例中,有5個系統(tǒng)故障差額(系統(tǒng)A有9個,系統(tǒng)B有4個),MTBF按125%變化。故障定義很容易且常常被誤解,就象此示例中所示,可以看出有效比較和無效比較的差別。
為了減少這種不一致性,APC為您建議了一種最佳方案,用于定義MTBF值所包括的內(nèi)容。此最佳方案是基于向用戶展示所有合理故障這一目標而建立的。這些故障應該代表供應商控制的所有故障情況。例如,如果故障是由供應商的維修技術人員引起的,MTBF應該反映這個情況,因為此故障屬于供應商的責任。另一方面,如果用戶選擇雇傭第三方維修人員,是維修人員引發(fā)了故障,MTBF不應該反映此情況,因為它已經(jīng)超出了供應商的控制范圍。附錄中的對照表指明哪些定義是此最佳方案的組成部分。
只要有可能,此故障最佳方案定義應該用于比較供應商間的產(chǎn)品。如果供應商只能夠提供此定義的子集,那么從其他被比較的供應商獲取同一子集是很必要的。再次說明,此一致性對于公平比較是非常必要的。不過,盡管這可以促成“公平”比較,但并不能很好地反映現(xiàn)實。供應商包括的故障子集越小,MTBF值與實際情況距離越遠。
樣本期間結束日期和AFR計算日期之間的時間間隔
如果某個供應商可以接收、診斷和修理樣本期間內(nèi)報告的所有產(chǎn)品故障,則可以立即計算AFR。事實上,對于在客戶處進行診斷和修理的少量產(chǎn)品,這是可行的。但是,如果是運回制造商處的大量產(chǎn)品,就不能這樣。對于相似產(chǎn)品類型的MTBF比較,樣本期間結束日期和AFR計算日期之間的延遲應該相似。例如,假設供應商“A”在樣本期間結束的一個月后計算AFR,供應商“B”在樣本期間結束的四個月后計算AFR。如果被比較的產(chǎn)品是大批量產(chǎn)品,供應商“A”報告一個令人滿意的AFR的可能性更大。這是因為某些“故障”產(chǎn)品(尚未接收、診斷和修理)不計入AFR計算之內(nèi)。
在某種條件下,系統(tǒng)之間的時間范圍差異未必會導致無效比較(其他所有情況都等同)。這個條件就是,當所有供應商都假設未修理的產(chǎn)品與以前修理過的產(chǎn)品的故障率相同并且已經(jīng)接收、診斷和修理了大部分返回產(chǎn)品。
制訂的數(shù)據(jù)采集和分析過程
要評估MTBF比較的可信度,很重要的一點就是要了解每個供應商已制定好的數(shù)據(jù)采集和分析過程。一個明確定義的已文檔化的過程對于實施穩(wěn)定的質(zhì)量控制系統(tǒng)至關重要。有助于確保整個分析步驟的一致性和準確性。以下三個示例說明需要特別注意的過程問題。當上述問題或其他問題很明顯時,應該嚴格地檢查這些問題對MTBF估計結果(及最終比較結果)的影響。
供應商無法準確跟蹤全球范圍數(shù)據(jù),因為全球不同地區(qū)使用的故障及修理數(shù)據(jù)的跟蹤系統(tǒng)或存儲系統(tǒng)不盡相同。數(shù)據(jù)缺失或不正確可能會導致評估全球產(chǎn)品的AFR時出現(xiàn)錯誤。
對于已歸類的返回產(chǎn)品,供應商沒有明確定義的過程。如果因無條件退貨返回的未使用和未開箱產(chǎn)品被分類為因故障返修,將導致AFR變大。
供應商的跟蹤系統(tǒng)大部分都是手動的。過程中涉及的人為因素越多,數(shù)據(jù)出錯并最終導致AFR計算出錯的可能性就越大。通常,過程的自動化程度越高,結果就越準確。比如,自動掃描序列號,而不是手動向系統(tǒng)中鍵入號碼,這就是一種自動化。
計算中使用的AFR公式
取決于產(chǎn)品的不同,各個供應商使用的AFR公式(公式1或2)可能會使得MTBF比較無用。比較連續(xù)運轉的產(chǎn)品(一旦啟用)可以使用兩個公式之一,但比較間斷運轉的設備僅可以使用公式2,否則該比較無效。
表2說明在何種情況下進行的比較有效。
表2–AFR公式比較表
產(chǎn)品運轉方式 | 使用的AFR公式1 | 使用的AFR公式2 |
連續(xù)運轉產(chǎn)品比較, |
有效比較 | 有效比較 |
間斷運轉產(chǎn)品比較, |
無效比較 | 有效比較 |
一年內(nèi)的小時數(shù)
只有在穩(wěn)定故障率的假設下,將AFR轉換為MTBF才有效。在這種情況下,可以使用公式3,不過請確認要比較的所有系統(tǒng)使用的小時數(shù)(一年內(nèi))相同,這一點很重要。例如,某些供應商每年使用8,000小時,而有些供應商則使用8,760小時。
三、除MTBF外的決策標準
盡管MTBF可以作為產(chǎn)品規(guī)格之一,并作為選擇產(chǎn)品(當方法、可變因素和假設對于所有要比較的系統(tǒng)都相同時)的有力依據(jù),但它決不是唯一的標準。當評估多個供應商的產(chǎn)品時,還有許多應該考慮的其他標準。例如,供應商的整體質(zhì)量控制過程的穩(wěn)健程度如何?生產(chǎn)產(chǎn)量如何,處于何種環(huán)境下?是否通過ISO9000認證?滿足這些標準就會提供一個優(yōu)化質(zhì)量和可靠性的標準化過程。每個產(chǎn)品滿足用戶需要的程度如何?這可能需要考慮諸如產(chǎn)品靈活性或模塊性、快速故障恢復能力(MTTR)和產(chǎn)品的總擁有成本(TCO)。其他比較方式可能著眼于客戶推薦產(chǎn)品或產(chǎn)品評估。
最終,可以考慮對兩個或多個系統(tǒng)使用公正的第三方評估,以確??梢赃x擇到最適合的產(chǎn)品規(guī)格并制定出最佳的購買決策。
結論
比較多個產(chǎn)品時,MTBF通常是關鍵的決策依據(jù)。不過,比較這些值時,需要注意以下事項。首先,預測MTBF值的方法必須相同。另外,在采集和分析現(xiàn)場數(shù)據(jù)過程中將用到許多可變因素和假設,其中的每一項都可能對結果產(chǎn)生重要影響。如果可變因素和假設不一致,那么就不可能進行公平的MTBF比較。實際情況是這些可變因素和假設通常都是不一樣的。附錄中的對照表可以幫助您確定屬于哪種情況。另外,使用MTBF在線計算器可以確定關鍵可變因素對MTBF值的影響。