如何避免淹沒在云原生可觀測性數(shù)據(jù)中

責任編輯:cres

作者:Bill Doerrfeld

2022-05-24 13:43:16

來源:企業(yè)網(wǎng)D1Net

原創(chuàng)

隨著很多企業(yè)致力于改善其基礎(chǔ)設(shè)施的運營方式,云原生監(jiān)控變得越來越重要。這些數(shù)據(jù)可用于根本原因分析、縮短事件響應(yīng)時間,并保留可用的高性能用戶體驗。

傳統(tǒng)的應(yīng)用程序性能監(jiān)視(APM)在新的云原生堆棧中并不總是能發(fā)揮作用,兩者在規(guī)模和數(shù)據(jù)量方面存在根本差異。此外,當一切都在容器中運行時,必須圍繞數(shù)據(jù)的臨時性設(shè)計和優(yōu)化監(jiān)視。
 
了解云原生性能可以更好地為站點可靠性工程師(SRE)和平臺工程師提供實時洞察力,幫助在出現(xiàn)問題時快速響應(yīng)。因此,人們近年來看到對云原生全棧可觀察性的興趣激增,其中涉及指標、日志和跟蹤,以揭示事件的根本原因。
 
Chronosphere公司聯(lián)合創(chuàng)始人兼首席執(zhí)行官Martin Mao表示,可觀察性的一個關(guān)鍵目標是減少平均恢復(fù)時間(MTTR)。然而令人驚訝的是,這一指標在許多企業(yè)中實際上正在增加,工程師們可能會遇到數(shù)據(jù)疲勞,因為在處理大量通知時識別警報很棘手。Mao對于如何管理云原生可觀察性數(shù)據(jù)進行了分析和闡述,并介紹了一些技巧,這些技巧可以幫助企業(yè)在可觀測數(shù)據(jù)的海洋中保持頭腦清醒。
 
可觀察性的趨勢
 
首先,許多開源工具正在涌現(xiàn)以支持云原生可觀察性任務(wù),該任務(wù)與云計算提供商或計算環(huán)境無關(guān)。云原生計算基金會在一項研究中發(fā)現(xiàn),工程師們正在積極使用OpenTelemetry、Fluentd、Jaeger、OpenTracing、Cortex和OpenMetrics等開源工具。
 
Martin Mao曾領(lǐng)導(dǎo)Uber公司可觀察性團隊,他對當今平臺運營的需求有著深刻的洞察力。Uber公司的開發(fā)人員意識到應(yīng)用程序性能監(jiān)控(APM)的不足,并試圖開發(fā)自己的工具,從而催生了開源指標平臺M3和開源分布式跟蹤系統(tǒng)Jaeger等項目。
 
但是,對那些華而不實的云原生技術(shù)的投資確實有不利的一面。他表示,人們越來越擔心這些工具產(chǎn)生的大量數(shù)據(jù)。可觀察性數(shù)據(jù)的增長遠遠超過業(yè)務(wù)和基礎(chǔ)設(shè)施的增長,這意味著不僅難以解析,而且過多的可觀察性數(shù)據(jù)可能會創(chuàng)建新的數(shù)據(jù)湖,帶來數(shù)據(jù)存儲和集成的新問題。
 
Mao說,“由于產(chǎn)生了更多數(shù)據(jù),需要篩選的警報也越來越多,這些警報開始妨礙企業(yè)找出解決這些問題的方法。”
 
解決方案:優(yōu)化保留和分辨率
 
Mao表示,企業(yè)可以通過圍繞數(shù)據(jù)保留和解決設(shè)置限制來解決這些問題。以下深入了解這些概念的含義。
 
(1)數(shù)據(jù)保留
 
隨著許多工具產(chǎn)生不斷升級的數(shù)據(jù)維度,企業(yè)的可觀察性數(shù)據(jù)可以快速積累。阻止數(shù)據(jù)積累的第一種方法是限制數(shù)據(jù)的收集時間和存儲時間。
 
例如,是否有必要無限期地保存在單個部署過程中收集的所有數(shù)據(jù)?在當今的迭代開發(fā)周期中,永遠存儲這些點可能不是明智之舉。這可能意味著將默認存儲時間進行縮減。
 
此外,未能對收集數(shù)據(jù)的時間設(shè)置限制會導(dǎo)致可觀察性數(shù)據(jù)激增。例如,只有在主動調(diào)試時,實時記錄調(diào)試端點才有意,否則沒有必要收集數(shù)據(jù)。
 
(2)數(shù)據(jù)分辨率
 
數(shù)據(jù)分辨率是指記錄的時間序列數(shù)據(jù)的粒度。正如Mao指出的那樣,每秒記錄數(shù)據(jù)與每小時記錄數(shù)據(jù)基本上相差3600倍。因此,優(yōu)化數(shù)據(jù)收集的分辨率對于減少采用成本高昂的存儲設(shè)備非常重要。
 
為可觀察性數(shù)據(jù)調(diào)整數(shù)據(jù)分辨率在很大程度上取決于手頭的用例?;氐匠掷m(xù)集成(CI)/持續(xù)交付(CD)示例,如果在回滾時收集部署數(shù)據(jù),希望每一秒都具有高分辨率,因為這是關(guān)鍵時刻。另一方面,如果企業(yè)要進行一年的容量規(guī)劃,那么可能不需要在第二年之前保留歷史容量信息,因為這過于細化。
 
其他提示
 
優(yōu)化數(shù)據(jù)保留和分辨率可以限制記錄的數(shù)據(jù)量。這有助于保持更小的占用空間,并生成更少的數(shù)據(jù)點進行篩選。與其他監(jiān)控方法相比,調(diào)整分辨率通常是一種更好的折衷方法,例如只記錄生產(chǎn)團隊的10%,這可能會給許多用戶帶來困擾。
 
擁有一種動態(tài)選擇加入和退出數(shù)據(jù)收集過程的方法可以減輕一些前期工作。這可以被認為是自動應(yīng)用更智能的默認值。一旦知道什么是有效的,就可以圍繞可觀察性數(shù)據(jù)收集和存儲過程設(shè)置通用模式,這些模式可以在企業(yè)中共享。
 
Mao指出,為了更好地處理數(shù)據(jù),團隊將需要工具來修改和可視化他們正在收集的數(shù)據(jù)。此外,由于工作人員在調(diào)試時可能不需要每個數(shù)據(jù)點維度,因此他們可能會受益于預(yù)先計算所需答案的機制。
 
結(jié)語
 
可觀察性趨勢可以為幫助數(shù)字平臺優(yōu)化運營帶來巨大好處??捎^察性有助于減少響應(yīng)問題的時間并改善最終用戶體驗。他說,“可觀察性在其中起著關(guān)鍵作用,它讓人們了解這些做法是否有用。”
 
然而,向云原生架構(gòu)的加速過渡產(chǎn)生了新警報和信號的風暴。如果不加以解決,這些數(shù)據(jù)會迅速堆積起來,從而需要對數(shù)據(jù)本身有更高的可見性。Mao說:“帶來的價值需要被重視。”
 
世界正在產(chǎn)生大量數(shù)據(jù),數(shù)據(jù)會占用更多空間。它會累積并且大規(guī)模存儲的成本很高。然而,人們?nèi)匀徽J為數(shù)據(jù)是免費的,通常不會為數(shù)據(jù)生命周期制定計劃。Mao說:“負責可觀察性后端的人員的心態(tài)不應(yīng)該是創(chuàng)建一個數(shù)據(jù)湖,在某種程度上必須采取一些措施。”
 
為了抵消這種趨勢,運營商不能以同樣的方式對待每一個數(shù)據(jù)??傊?,為了避免淹沒在可觀察性數(shù)據(jù)湖中,需要限制不必要的數(shù)據(jù)收集,并圍繞數(shù)據(jù)收集的時間、粒度、可視化方式以及存儲時間實施更智能的優(yōu)化。
 
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責任的權(quán)利。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號