解放運(yùn)維工程師 你需要服務(wù)器智能運(yùn)維

責(zé)任編輯:cres

2020-05-18 16:47:12

摘自:互聯(lián)網(wǎng)

解放運(yùn)維工程師 你需要服務(wù)器智能運(yùn)維。

隨著互聯(lián)網(wǎng)、5G、IoT等技術(shù)的飛速發(fā)展,全球大型數(shù)據(jù)中心數(shù)量將以3.6%的復(fù)合年增長(zhǎng)率增長(zhǎng),數(shù)據(jù)中心規(guī)模不斷擴(kuò)大,數(shù)據(jù)中心服務(wù)器規(guī)模已經(jīng)達(dá)到10萬(wàn)級(jí),這不僅需要更多的運(yùn)維工程師,給企業(yè)增加運(yùn)維成本,同時(shí)給運(yùn)維工程師也帶來(lái)了極大的難度和挑戰(zhàn):如何及時(shí)發(fā)現(xiàn)異常設(shè)備?異常根因是什么?故障是否能自愈?是否能預(yù)測(cè)故障?性能趨勢(shì)是什么?如何決策?

運(yùn)維發(fā)展歷程:人肉運(yùn)維、自動(dòng)化運(yùn)維和智能運(yùn)維

早期的運(yùn)維工作,大部分是由運(yùn)維工程師手工完成,這被稱(chēng)作人肉運(yùn)維。服務(wù)器運(yùn)行狀態(tài),全靠運(yùn)維工程師每日肉眼查看,進(jìn)行問(wèn)題定位與解決。自動(dòng)化運(yùn)維應(yīng)運(yùn)而生,大大提升了發(fā)現(xiàn)異常設(shè)備的效率,降低了運(yùn)維成本。但是,面對(duì)故障根因、故障預(yù)測(cè)、性能趨勢(shì)和控制決策,自動(dòng)化運(yùn)維力不從心。

Gartner在2016時(shí)提出了智能運(yùn)維(Artificial Intelligence for IT Operations)的概念,并預(yù)測(cè)到2020年,智能運(yùn)維的采用率將高達(dá)50%。從服務(wù)器運(yùn)維的角度來(lái)分析服務(wù)器智能運(yùn)維,目標(biāo)就是通過(guò)對(duì)帶外信息(配置信息、狀態(tài)信息、性能信息、日志等)和帶內(nèi)信息(配置參數(shù)、性能信息、日志信息)進(jìn)行采集,通過(guò)機(jī)器學(xué)習(xí)的方式來(lái)解決運(yùn)維問(wèn)題,提高系統(tǒng)預(yù)警能力和穩(wěn)定性,降低運(yùn)維成本,提高運(yùn)維效率。

異常快速檢測(cè),問(wèn)題準(zhǔn)確告警

在服務(wù)器運(yùn)維中,異常檢測(cè)是根本,常見(jiàn)的有三大監(jiān)控?cái)?shù)據(jù):狀態(tài)指標(biāo)、性能指標(biāo)和日志數(shù)據(jù),狀態(tài)指標(biāo)一般誤報(bào)率較少,而傳統(tǒng)性能指標(biāo)的設(shè)置閾值,常常某一時(shí)刻產(chǎn)生噪點(diǎn)數(shù)據(jù)而產(chǎn)生誤報(bào);對(duì)于周期性變化的數(shù)據(jù)又無(wú)法進(jìn)行動(dòng)態(tài)調(diào)整,也常常產(chǎn)生誤報(bào),大大降低了告警的準(zhǔn)確性。日志一般是半結(jié)構(gòu)化數(shù)據(jù),根據(jù)日志級(jí)別產(chǎn)生告警,其準(zhǔn)確性極差,并且只能檢測(cè)到已知和確定模式的異常。

浪潮服務(wù)器智能運(yùn)維采用無(wú)閾值告警,無(wú)需人為設(shè)置閾值,通過(guò)對(duì)時(shí)序數(shù)據(jù)進(jìn)行去噪、升維、方差等處理后,經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)、LSTM、隨機(jī)森林等算法進(jìn)行動(dòng)態(tài)的學(xué)習(xí),達(dá)到對(duì)監(jiān)控的性能指標(biāo),自動(dòng)、實(shí)時(shí)、準(zhǔn)確的識(shí)別出異常數(shù)據(jù)。對(duì)于日志的處理,通過(guò)對(duì)單條日志的語(yǔ)義識(shí)別和日志文件的時(shí)序識(shí)別方式,經(jīng)過(guò)自然語(yǔ)言、專(zhuān)家系統(tǒng)、神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等算法進(jìn)行訓(xùn)練或者維護(hù),從而不斷完善,達(dá)到日志異常的準(zhǔn)確檢測(cè)。

故障智能處理,輕松運(yùn)維so easy

智能故障診斷是建立在異常檢測(cè)之上,有了準(zhǔn)確的異常檢測(cè),通過(guò)綜合各個(gè)異常指標(biāo)進(jìn)行數(shù)據(jù)的融合、過(guò)濾、權(quán)重等處理,使用神經(jīng)網(wǎng)絡(luò)、SVM、隨機(jī)森林等智能算法,尋找問(wèn)題根因,給出問(wèn)題解決方案,使得運(yùn)維工程師能夠分鐘級(jí)解決問(wèn)題。

智能故障預(yù)測(cè)是對(duì)設(shè)備某一部件的性能數(shù)據(jù)和狀態(tài)的動(dòng)態(tài)檢測(cè),對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,尋找特征數(shù)據(jù)建立數(shù)學(xué)模型,使用神經(jīng)網(wǎng)絡(luò)、SVM等智能算法進(jìn)行在線(xiàn)/離線(xiàn)訓(xùn)練,形成預(yù)測(cè)模型。在部件發(fā)生故障前,感知故障,從而避免業(yè)務(wù)宕機(jī),提高系統(tǒng)穩(wěn)定性。

智能故障自愈是指故障確認(rèn)后或者預(yù)測(cè)到故障時(shí),無(wú)需人為干預(yù),能夠通過(guò)重啟、配置或者一定的流程,使得系統(tǒng)能夠恢復(fù)正常。故障自愈,需要維護(hù)一定的規(guī)則或者對(duì)故障進(jìn)行標(biāo)記,經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)、SVM等算法進(jìn)行訓(xùn)練,形成自愈模型,實(shí)現(xiàn)系統(tǒng)的故障自愈。

智能決策,感知未來(lái)發(fā)展

浪潮服務(wù)器智能運(yùn)維工具可對(duì)服務(wù)器的性能數(shù)據(jù)進(jìn)行預(yù)測(cè),經(jīng)過(guò)ARIMA、最小二乘法、指數(shù)平滑、LSTM等智能算法,能夠感知系統(tǒng)在未來(lái)幾個(gè)小時(shí)、幾天或者一年的數(shù)據(jù)的走勢(shì)、增長(zhǎng)量或者周期性變化等,不僅為人工預(yù)測(cè)或者智能決策提供基礎(chǔ)數(shù)據(jù),還能夠?yàn)闃I(yè)務(wù)系統(tǒng)提供優(yōu)化建議。

浪潮服務(wù)器智能決策是建立在異常檢測(cè)、故障診斷、故障預(yù)測(cè)、性能預(yù)測(cè)等之上,通過(guò)建立數(shù)據(jù)模型,經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、專(zhuān)家系統(tǒng)等智能算法的不斷學(xué)習(xí),形成決策模型,無(wú)需人為干預(yù),對(duì)服務(wù)器的配置參數(shù)進(jìn)行智能調(diào)整,版本基線(xiàn)的升級(jí)/回退等決策,從而達(dá)到系統(tǒng)性能最優(yōu)、異常最少、功耗最低等效果。

例如監(jiān)控服務(wù)器運(yùn)行的性能,在業(yè)務(wù)少的時(shí)候,可以將服務(wù)器功耗降低,在集群方式下,甚至可以進(jìn)行服務(wù)器關(guān)機(jī)操作,在業(yè)務(wù)量大的時(shí)候,將服務(wù)器性能調(diào)整至最優(yōu)等智能決策。在整機(jī)柜/機(jī)房中,功耗的管理,當(dāng)服務(wù)器都處于滿(mǎn)載時(shí),服務(wù)器的功耗是否超越了整個(gè)機(jī)房或者機(jī)柜的最大功耗,超越之后如何進(jìn)行智能決策等。

智能推薦,發(fā)掘無(wú)限價(jià)值

智能推薦是對(duì)平臺(tái)大量數(shù)據(jù)的統(tǒng)計(jì)、計(jì)算、分析和挖掘等處理,建立數(shù)據(jù)模型,通過(guò)神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、最小二乘法、SVM等智能算法,建立推薦模型,實(shí)現(xiàn)對(duì)整個(gè)數(shù)據(jù)中心進(jìn)行分析和預(yù)測(cè),來(lái)指導(dǎo)客戶(hù)決策服務(wù)器下架、備件量、擴(kuò)容量、縮容量、采購(gòu)廠商等。例如某一型號(hào)服務(wù)器的故障率過(guò)高,維護(hù)費(fèi)用相應(yīng)增高,建議下架,又由于業(yè)務(wù)的增長(zhǎng),需要采購(gòu)新的服務(wù)器,通過(guò)智能算法評(píng)估采購(gòu)量,進(jìn)行推薦。

目前,浪潮依托自身技術(shù)優(yōu)勢(shì),已自主研發(fā)了一系列自動(dòng)化、智能化服務(wù)器管理軟件集,從服務(wù)器上架、配置、部署、監(jiān)控、故障分析等實(shí)現(xiàn)了全生命周期運(yùn)維管理。其中ISPIM(浪潮物理基礎(chǔ)設(shè)施管理平臺(tái))突破了大規(guī)?;A(chǔ)設(shè)施智能管理平臺(tái)的分布式網(wǎng)格架構(gòu)、高性能數(shù)據(jù)采集框架及智能分析系統(tǒng)、無(wú)狀態(tài)管理技術(shù),實(shí)現(xiàn)大規(guī)模服務(wù)器的全生命周期的智能管理。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)