作為一名APM從業(yè)者,我對上述觀點(diǎn)難以茍同。APM不僅具備監(jiān)測與警報(bào)功能,還可幫助用戶了解和提升應(yīng)用性能。大數(shù)據(jù)方法提供的完整且正確的數(shù)據(jù)和分析功能可以幫助我們不斷提升應(yīng)用性能。
大數(shù)據(jù)的主要作用是幫助我們在無需提出假設(shè),設(shè)計(jì)采樣策略,并通過實(shí)驗(yàn)來測試一組理論的情況下獲得直接信息。我們通過大數(shù)據(jù)方法來了解問題的全貌,并由此得到完整且正確的分析數(shù)據(jù),消除了這一過程中的采樣或選擇偏差。
任何一個(gè)時(shí)點(diǎn)采樣、過濾或匯聚的數(shù)據(jù),得到的結(jié)果都僅代表真相的一小部分
以下是用大數(shù)據(jù)方法提高應(yīng)用問題平均修復(fù)時(shí)間(MTTR)的主要方法。值得注意的是,能減少M(fèi)TTR是企業(yè)采購應(yīng)用性能監(jiān)測解決方案的主要?jiǎng)右颉?/p>
大數(shù)據(jù)如何借助MTTR對性能問題進(jìn)行分類
一些性能問題經(jīng)常干擾應(yīng)用的運(yùn)行。大數(shù)據(jù)方法則可幫助IT人員更有效地分解和克服長尾問題。
分析明確
大數(shù)據(jù)使性能分析不再“模棱兩可”。在缺乏精確數(shù)據(jù)的情況下,性能分析會(huì)引發(fā)猜測并產(chǎn)生誤導(dǎo)。所以,學(xué)會(huì)剔除不相干因素也同樣重要。在進(jìn)行分析時(shí),IT團(tuán)隊(duì)經(jīng)常會(huì)在沒有詳細(xì)取證的情況下試圖使用既有知識,比如“我們上次遇到的性能問題是關(guān)于日志代碼的”并頻繁導(dǎo)致方向性錯(cuò)誤。但有了大數(shù)據(jù),我們就可以很快知道“這不是日志代碼問題”,因?yàn)樵跊]有記錄日志代碼的前提下我們捕獲了所有內(nèi)容,不必在此浪費(fèi)時(shí)間和精力。
診斷間歇性問題
間歇性性能問題通常是最難診斷的,原因如下:
1.難以發(fā)現(xiàn)問題根源
2.沒有故障回溯功能
3.缺少發(fā)現(xiàn)問題的機(jī)會(huì)
4.在這些長期存在的問題中,其環(huán)境也在發(fā)生變化
大數(shù)據(jù)方法則可幫助IT人員快速診斷問題。大數(shù)據(jù)方法無需預(yù)先了解故障情況,因?yàn)樵\斷數(shù)據(jù)已被全面記錄在案。同樣,無論問題何時(shí)發(fā)生以及環(huán)境如何變化,取證數(shù)據(jù)都隨時(shí)可用。
分析短暫環(huán)境
大數(shù)據(jù)方法在診斷云,虛擬化或容器化環(huán)境中的問題時(shí)非常有效。在這些短暫的應(yīng)用環(huán)境中,應(yīng)用基礎(chǔ)設(shè)施不斷變化,導(dǎo)致觸發(fā)/采樣方法在組件生效和失效時(shí)丟失狀態(tài)變化。
了解用戶動(dòng)態(tài)
了解用戶群體對于了解全球性能趨勢信息非常重要,但若不完全了解步驟,有時(shí)則會(huì)導(dǎo)致嚴(yán)重的性能問題。單個(gè)用戶操作可能會(huì)導(dǎo)致整個(gè)應(yīng)用出現(xiàn)性能問題。大數(shù)據(jù)方法則可以確保所有取證數(shù)據(jù)均可用于還原“事故現(xiàn)場”。
取證探查與代碼審計(jì)
取證探查是APM大數(shù)據(jù)的優(yōu)勢之一,我們甚至可以發(fā)現(xiàn)一些以前未被發(fā)現(xiàn)的問題!
通常,豐富的歷史交易細(xì)節(jié)或高分辨率環(huán)境數(shù)據(jù)會(huì)揭示完全無法預(yù)見的行為及用戶如何使用或破壞應(yīng)用的極端狀況。我總能聽到這樣的話:“它不應(yīng)該這樣做”,但事實(shí)卻并非如此。
持續(xù)提升性能
我們不僅能利用大數(shù)據(jù)進(jìn)行監(jiān)測和診斷,還能有條不紊的減少性能膨脹。深度性能數(shù)據(jù)的可用性使我們能夠?qū)W⒂诔掷m(xù)提升性能。
使用狀況分析
應(yīng)用會(huì)隨著新功能的發(fā)布而不斷變化,并導(dǎo)致技術(shù)和性能問題不斷積累。隨著時(shí)間的推移,一個(gè)性能良好的應(yīng)用也開始變慢。大數(shù)據(jù)則有助于了解哪些應(yīng)用組件占用了大量時(shí)間,并將主要精力用于優(yōu)化性能。
應(yīng)用生態(tài)系統(tǒng)分析
企業(yè)永遠(yuǎn)不會(huì)在完全隔離的情況下設(shè)計(jì),構(gòu)建或運(yùn)行應(yīng)用。而某些情況下,不同應(yīng)用可能會(huì)共享系統(tǒng)、網(wǎng)絡(luò)或基礎(chǔ)設(shè)施。在其他情況下,應(yīng)用可能會(huì)共享通用函數(shù)庫,數(shù)據(jù)或API。共享組件或資源雖然有許多好處,但也會(huì)常常導(dǎo)致性能問題影響多個(gè)應(yīng)用。
大數(shù)據(jù)方法能幫助應(yīng)用支持團(tuán)隊(duì)在整個(gè)應(yīng)用環(huán)境中發(fā)現(xiàn)性能問題及其運(yùn)行模式,而不僅僅是單個(gè)應(yīng)用組件。一旦在單個(gè)應(yīng)用中發(fā)現(xiàn)問題,大數(shù)據(jù)分析方法就會(huì)幫助查找具有相同問題或存在風(fēng)險(xiǎn)的其他應(yīng)用。
大數(shù)據(jù)的人為因素
當(dāng)關(guān)鍵應(yīng)用出現(xiàn)性能問題時(shí),其原因可能是質(zhì)保測試未通過或生產(chǎn)環(huán)境大不如前。我們迅速動(dòng)員“猛虎團(tuán)隊(duì)”分析問題并提出建議。我發(fā)現(xiàn)分流工作能否成功在很大程度上取決于取證數(shù)據(jù)的質(zhì)量。缺乏證據(jù)會(huì)使團(tuán)隊(duì)分裂。需要對多種可能的原因進(jìn)行研究。另一方面,完整且準(zhǔn)確的取證數(shù)據(jù)消除了模棱兩可的情況,有利于凝聚團(tuán)隊(duì),更快的找到解決方案。
“猛虎團(tuán)隊(duì)”絕不會(huì)說“我們只需要最少的細(xì)節(jié)來尋找根本原因!”
總結(jié)
總體而言,大數(shù)據(jù)不僅有用,且當(dāng)涉及到APM時(shí)還十分必要。采樣并不能為您提供發(fā)現(xiàn)和解決動(dòng)態(tài)復(fù)合應(yīng)用環(huán)境中問題所需的完整性和數(shù)據(jù)深度。