AIOps進行時 數(shù)據(jù)中心運維也要智能化

責(zé)任編輯:zsheng

2019-04-10 14:20:39

摘自:中關(guān)村在線

數(shù)據(jù)中心的軟件智能化已成為共識,但背后的IT運維到底要進化到何種程度?現(xiàn)實情況是,一方面隨著企業(yè)所面臨的運維數(shù)據(jù)在時間、空間、架構(gòu)、規(guī)模等方面越來越復(fù)雜,另一方面新舊業(yè)務(wù)之間的平滑對接對傳統(tǒng)IT流程也是不小的考驗,如果運維的AI化落后于數(shù)據(jù)中心的AI,無疑會拖累數(shù)字化的進程。

數(shù)據(jù)中心的軟件智能化已成為共識,但背后的IT運維到底要進化到何種程度?現(xiàn)實情況是,一方面隨著企業(yè)所面臨的運維數(shù)據(jù)在時間、空間、架構(gòu)、規(guī)模等方面越來越復(fù)雜,另一方面新舊業(yè)務(wù)之間的平滑對接對傳統(tǒng)IT流程也是不小的考驗,如果運維的AI化落后于數(shù)據(jù)中心的AI,無疑會拖累數(shù)字化的進程。
500514561_wx

如果按照字面意思,AIOps即Artificial Intelligence for IT Operations,不過Gartner對它的解釋是AlgorithmicIT Operations,也就是基于AI算法去解決IT運維流程中的問題,例如性能監(jiān)控、可用性分析、關(guān)聯(lián)事件、自動化,以及日志、應(yīng)用狀態(tài)等運維數(shù)據(jù)信息。這一過程中,并不涉及人為的干擾因素。

調(diào)查顯示,全球有超過3000名CIO將數(shù)字化業(yè)務(wù)列為工作重點,預(yù)計AIOps的全球部署率會從2017年的10%升至2020年的50%,所覆蓋的行業(yè)將涉及金融、電力、醫(yī)療、航天、通信、HPC等領(lǐng)域。其背后的挑戰(zhàn)可以從幾個方面來看,首先是規(guī)模倍增,設(shè)備端可能有數(shù)十萬臺主機需要監(jiān)控至少數(shù)千個運行狀態(tài),所處理的數(shù)據(jù)量日均也是T4B級,而且還是實時的。

其次,IT運維對連續(xù)性的高要求使得持續(xù)的交付、集成、調(diào)度成為首選,再加上海量的數(shù)據(jù),對已有的運維成本存在較大挑戰(zhàn),例如當(dāng)前IT業(yè)務(wù)中充斥著公私混的云環(huán)境,以及第三方的SaaS類應(yīng)用,傳統(tǒng)的管理辦法再彈性環(huán)境中難以適應(yīng),而借助人工去監(jiān)督、統(tǒng)計、追蹤、分析是很大的工作量,情況只會越來越糟。

此外,更多的感知行為正在向網(wǎng)絡(luò)邊緣移動,使得云基礎(chǔ)架構(gòu)成為了IT解決方案部署的首選平臺,從而讓開發(fā)人員獲得了較以往更大的權(quán)力,IT人員還要在IT Ops的層面承擔(dān)更多責(zé)任,例如了解業(yè)務(wù)是如何在服務(wù)和底層架構(gòu)之間進行交互的。

從腳本運維到工具運維,再到智能運維,特點可以體現(xiàn)以下方面:數(shù)據(jù)源搜集、大數(shù)據(jù)分析、規(guī)則及模式識別、域算法、AI算法、自動化。需要注意的是,AIOps并沒有改變AI應(yīng)用本身,而是強調(diào)對流程、規(guī)則的AI化。例如,AIOps可以從無到有先對單點進行擊破,然后形成局部方案以此類推到面,由多個單點模塊組成完整的AIOps流程。其優(yōu)勢是,可知悉、可重用、可升級。

與此同時,運維團隊的角色也在轉(zhuǎn)變,要加入數(shù)據(jù)工程師、開發(fā)工程師甚至是AI工程師,除了繼續(xù)承擔(dān)質(zhì)量、成本、效率方面的工作,還要在AIOps的實施過程中變身為需求的發(fā)起方和結(jié)果收驗方。其中,運維AI工程師也要學(xué)會利用機器學(xué)習(xí)對運維產(chǎn)生的數(shù)據(jù)、經(jīng)驗進行整理和分析,最終讓數(shù)據(jù)發(fā)揮應(yīng)用的價值。

當(dāng)然要想具備運維AI的技能并不容易,對TensorFlow、Caffe、CUDA這些框架要有基礎(chǔ),還要對交叉驗證、驗證曲線等模型評估有基本的判斷。要知道在基礎(chǔ)運維平臺中,除了在運維時要提供標(biāo)準(zhǔn)化的運維數(shù)據(jù)和操作,在AIOps時的一些接口仍需要同時支持人工和自動數(shù)據(jù)獲取和運維操作。

無論多么智能,AIOps的核心還是Ops,這就決定了其會是跨領(lǐng)域的技術(shù)理念,因此在企業(yè)內(nèi)部開發(fā)者智能運維的時候,要結(jié)合業(yè)務(wù)特點來制定AI機制,不排除做二次開發(fā)的可能。如果運維不能AI化,那數(shù)據(jù)中心再怎么智能也只會停留在表層。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號