嚴(yán)峻的數(shù)據(jù)中心運(yùn)維挑戰(zhàn)
隨著智能手機(jī)、平板電腦等互聯(lián)網(wǎng)接入設(shè)備的爆炸性增長以及人們對社交、游戲、視頻娛樂等等互聯(lián)網(wǎng)應(yīng)用需求的日益增長,互聯(lián)網(wǎng)行業(yè)在近些年得到了迅猛的發(fā)展。但是這樣的發(fā)展不僅意味著支出成本的飛漲,也對在背后支撐這些服務(wù)的數(shù)據(jù)中心提出了更加苛刻的需求。
針對服務(wù)器的支出情況,搜狐公司技術(shù)副總裁周霖先生分享到:“近些年,搜狐的服務(wù)器采購成本基本是持平的,甚至還有小幅度的下降。但是從服務(wù)器管理和維護(hù)的成本來看,近幾年卻是以倍數(shù)的形式增長,主要原因來自于服務(wù)器數(shù)量的增多與管理的復(fù)雜度的增加。與此同時(shí),能耗與冷卻的成本也擁有幾倍的增長,這一現(xiàn)象,在擁有大規(guī)模x86服務(wù)器的互聯(lián)網(wǎng)公司更加明顯,也迫使我們使用新的方法去應(yīng)對數(shù)據(jù)中心運(yùn)維帶來的嚴(yán)峻挑戰(zhàn)。”
給搜狐數(shù)據(jù)中心帶來的運(yùn)維挑戰(zhàn)主要來自幾個(gè)方面:首先,是數(shù)據(jù)和計(jì)算需求快速增長所帶來的服務(wù)器數(shù)量的增長;其次是像游戲等時(shí)效性業(yè)務(wù)的高峰和低谷,造成的能源和計(jì)算資源的浪費(fèi);同時(shí),還有租用IDC帶來的機(jī)架和數(shù)據(jù)中心功耗的約束,管理多廠家設(shè)備多地域設(shè)備的復(fù)雜環(huán)境等等。此外,人力資源的短缺和調(diào)配困難也隨之而來。
智能數(shù)據(jù)中心的“四個(gè)現(xiàn)代化”
嚴(yán)峻的挑戰(zhàn)下,搜狐針對傳統(tǒng)數(shù)據(jù)中心運(yùn)維挑戰(zhàn)提出了Smart IDC的解決方案,通過平臺化、數(shù)據(jù)化、流程化、可視化這“四個(gè)現(xiàn)代化”,來實(shí)現(xiàn)智能化數(shù)據(jù)中心的管理。針對“四個(gè)現(xiàn)代化”周霖進(jìn)一步解釋道:“所謂四個(gè)現(xiàn)代化,即從服務(wù)器本身入手,以點(diǎn)及線,以線及面,由收集到的設(shè)備和人員數(shù)據(jù)指引,形成可視化的展現(xiàn),并加以流程化,約束運(yùn)維人員行為,保障系統(tǒng)可信度。”
這一解決方案,可以通過多個(gè)層面針對傳統(tǒng)數(shù)據(jù)中心存在的問題進(jìn)行優(yōu)化,幫助降低整體成本:
• 提高資源效率和管理水平
• 幫助運(yùn)維人員對不同任務(wù)中設(shè)備資源使用情況進(jìn)行管控
• 依據(jù)溫度事件差異化散熱需求
• 根據(jù)運(yùn)行負(fù)載的實(shí)際功耗規(guī)劃機(jī)架
• 設(shè)備功耗限定相同功耗性能最大化環(huán)境事件觸發(fā)SLA保障的最長時(shí)間
• 通過標(biāo)準(zhǔn)的命令來管理所有兼容服務(wù)器
從管理角度來看,搜狐的Smart IDC 平臺擁有“四個(gè)面向”:涉及到服務(wù)器位置跟蹤、配置信息、設(shè)備備件的面向設(shè)備信息的管理;面向硬件與系統(tǒng)設(shè)備管理的狀態(tài);通過溫度分布圖、機(jī)架功耗統(tǒng)計(jì)、備件使用跟蹤和警報(bào)系統(tǒng)實(shí)現(xiàn)的面向監(jiān)控信息數(shù)據(jù)的管理以及面向策略指引的管理。搜狐通過將這些狀態(tài)在系統(tǒng)內(nèi)做到流程化的管控。“數(shù)據(jù)中心每個(gè)要素,比如我們講的風(fēng)、火、水、電,每個(gè)要素對IDC運(yùn)維的保障都是有緊密相關(guān)性的,比如某臺服務(wù)器的溫度突然過高,在臨近空調(diào)的位置上溫度一定會有幾度的提升,這個(gè)時(shí)候在我的平臺上利用傳感器立刻可以發(fā)現(xiàn)這個(gè)問題,會優(yōu)先以郵件和短信形式通知運(yùn)營人員,并得到準(zhǔn)確的定位。”搜狐研發(fā)中心高級主管、搜狐-英特爾聯(lián)合實(shí)驗(yàn)室主管彭毅先生說,“搜狐在此之前,業(yè)務(wù)的負(fù)載情況無法清晰地交付給運(yùn)維部門,沒有詳細(xì)的數(shù)據(jù),就無法對數(shù)據(jù)中心進(jìn)行優(yōu)化。搜狐會通過這個(gè)平臺關(guān)注所有服務(wù)器設(shè)備運(yùn)行的負(fù)載,讓運(yùn)維部門更加了解數(shù)據(jù)中心負(fù)載情況和業(yè)務(wù)需求,增強(qiáng)服務(wù)器運(yùn)維的可計(jì)劃性。”
所謂面向策略指引,即從直接可以得到的系統(tǒng)、硬件、資產(chǎn)以及流程信息中,利用平臺分析系統(tǒng)得出一些可輔助計(jì)劃和決策的結(jié)論。比如負(fù)載指標(biāo)可以指引設(shè)備選型情況,還有數(shù)據(jù)中心剩余資源的情況,配件失效的特性以及服務(wù)人員上門維護(hù)的優(yōu)化調(diào)度等等。“前三個(gè)面向得到的是顯性的數(shù)據(jù)價(jià)值,而隱性數(shù)據(jù)這部分會多緯度的進(jìn)行資源的展現(xiàn)、數(shù)據(jù)分析、策略指引,雖然是隱性的數(shù)據(jù)價(jià)值,實(shí)際Smart IDC最大價(jià)值就是在于這個(gè)隱性的價(jià)值。”周霖補(bǔ)充道。
為了讓平臺更加成熟可靠,搜狐同時(shí)制定了一套自學(xué)習(xí)系統(tǒng)。受監(jiān)控設(shè)備將為平臺提供監(jiān)控?cái)?shù)據(jù)信息,通過分析這些信息制訂相應(yīng)的策略之后,再把這個(gè)策略規(guī)范化、流程化,納入搜狐的平臺,鞏固平臺可靠性,并且一直通過這個(gè)流轉(zhuǎn)。一旦受管理設(shè)備信息發(fā)生了變化,后續(xù)的指引也會發(fā)生變化,會制訂成新具有適應(yīng)性的流程和規(guī)范,鞏固平臺。這個(gè)循環(huán)時(shí)間越長,價(jià)值越高。
通用技術(shù)成就的智能
搜狐采用了很多通用的技術(shù)手段實(shí)現(xiàn)其Smart IDC平臺,例如通過IPMI(智能平臺管理接口)這一底層硬件接口,盡可能地通過這個(gè)接口采集信息數(shù)據(jù),還有系統(tǒng)內(nèi)的磁盤的信息的獲取、溫度傳感器等等。
目前,服務(wù)器都會有自己專屬的管理器進(jìn)行檢測和管控,但是復(fù)雜的數(shù)據(jù)中心構(gòu)成依然將運(yùn)維難度大大提高了。 “對此,搜狐有了更加高效的對策,”彭毅介紹到,“考慮到目前數(shù)據(jù)中心內(nèi)的服務(wù)器來自不同廠商,但又都是以x86架構(gòu)為主,我們整個(gè)平臺的目標(biāo)就是去掉不同OEM的差異化,所以我們這一基于軟硬件的解決方案可以針對來自所有廠商x86服務(wù)器,替代了一對一優(yōu)化數(shù)據(jù)中心的傳統(tǒng)方式,顯著提升了管理效率。”
搜狐利用的IPMI這個(gè)硬件底層的通信協(xié)議,通過服務(wù)器底層BMC把數(shù)據(jù)提取出來,這和傳統(tǒng)的監(jiān)控截然不同。“我們尋找到了一個(gè)最大限度、在各個(gè)不同OEM產(chǎn)品最通用的方式,去做整個(gè)平臺化的監(jiān)控和管理。”IMPI(智能平臺管理接口)是一種開放標(biāo)準(zhǔn)的硬件管理接口規(guī)格,定義了嵌入式管理子系統(tǒng)進(jìn)行通信的特定方法。該規(guī)格由英特爾在1998年提出,并在2004年發(fā)布IPMI 2.0規(guī)格。各廠商的設(shè)備在一些功能控制上差異很大,搜狐在此下了很大功夫。“借助搜狐-英特爾技術(shù)創(chuàng)新實(shí)驗(yàn)室的共同努力,英特爾提供的底層硬件技術(shù)的支持以及其對機(jī)房、數(shù)據(jù)中心的理解和經(jīng)驗(yàn)幫助我們將底層硬件技術(shù)‘吃透’,使得現(xiàn)在任何平臺、任何廠商、任何型號的服務(wù)器進(jìn)來以后,只要用標(biāo)準(zhǔn)化命令就可以通過Smart IDC平臺進(jìn)行統(tǒng)一的管理。”
數(shù)據(jù)中心內(nèi)的“大數(shù)據(jù)”
談到RFID在數(shù)據(jù)中心中的部署使用,彭毅解釋道: “RFID確實(shí)比較流行,最開始搜狐也準(zhǔn)備在Smart IDC項(xiàng)目里給每臺服務(wù)器都增加一個(gè)RFID標(biāo)簽,來跟蹤服務(wù)器在IDC內(nèi)的定位和流轉(zhuǎn)情況。但是因?yàn)槠胀ū粍?dòng)式的RFID會存在一個(gè)問題,讀取器接觸式的信息采集方法對大規(guī)模甚至不同地域的數(shù)據(jù)中心還是有難度,還是無法達(dá)到無人化值守,主動(dòng)式的RFID解決方案成本較高,有一些違背我們的初衷?;趯ψ陨硐到y(tǒng)的了解,在多的審視自己系統(tǒng)的之后有了新的認(rèn)識,如果當(dāng)時(shí)我們采用了RFID對我們系統(tǒng)也是一個(gè)制約,因?yàn)镽FID一旦附屬到服務(wù)器上,它的維護(hù)也是一個(gè)巨大的成本。比如標(biāo)簽出問題或者電池需要更換,都會對我們造成一個(gè)非常大的問題。隨著項(xiàng)目的推進(jìn)用了一些其他的方式,也是在大數(shù)據(jù)的背景下,用很多的微小的數(shù)據(jù),做成一個(gè)集合以后替代一些附加上的傳感器。我們利用很多采集數(shù)據(jù)相關(guān)性,比如端口數(shù)據(jù)的變化,來推算出這個(gè)服務(wù)器的定位,這個(gè)計(jì)算結(jié)果是很有意思的。”
引領(lǐng)行業(yè)前進(jìn)的杰出貢獻(xiàn)者
英特爾與搜狐長期保持良好的合作關(guān)系,雙方有多年的深入合作,對新技術(shù)的研究及行業(yè)發(fā)展趨勢有很大的認(rèn)同。雙方本著以技術(shù)探索為基礎(chǔ),以行業(yè)發(fā)展趨勢為導(dǎo)向,以深入技術(shù)合作、挖掘前沿技術(shù)、推動(dòng)關(guān)鍵技術(shù)發(fā)展、培養(yǎng)專業(yè)技術(shù)人才、熱點(diǎn)難點(diǎn)技術(shù)探索及驗(yàn)證為目標(biāo),于2011共同成立了搜狐-英特爾技術(shù)創(chuàng)新實(shí)驗(yàn)室。
作為搜狐研發(fā)中心高級主管、搜狐-英特爾聯(lián)合實(shí)驗(yàn)室主管,彭毅表示:“搜狐-英特爾聯(lián)合實(shí)驗(yàn)室在互聯(lián)網(wǎng)行業(yè)運(yùn)轉(zhuǎn)的很好,業(yè)界的聯(lián)合實(shí)驗(yàn)室中可以成為一個(gè)典范。實(shí)驗(yàn)室研究的每一個(gè)項(xiàng)目都經(jīng)過行業(yè)實(shí)際業(yè)務(wù)的需求、技術(shù)的緊迫性、產(chǎn)品的技術(shù)成熟程度、性價(jià)比與是否能夠?qū)嶋H部署等等因素嚴(yán)格篩選和規(guī)劃,雙方共同投入資源,而非紙上談兵的事。
聯(lián)合實(shí)驗(yàn)室所做出的項(xiàng)目,首先是來自搜狐業(yè)務(wù)的需求,而且這個(gè)項(xiàng)目立項(xiàng)以后經(jīng)過可實(shí)施性等多種因素的篩選,最后實(shí)施部署出來得到的收益,去向行業(yè)做推廣。例如智能數(shù)據(jù)中心項(xiàng)目,就在2012年互聯(lián)網(wǎng)峰會上已經(jīng)披露了整個(gè)框架和技術(shù)的細(xì)節(jié),引起整個(gè)行業(yè)很廣泛的興趣,包括跟搜狐同等規(guī)模的互聯(lián)網(wǎng)公司,甚至比搜狐規(guī)模要大很多的互聯(lián)網(wǎng)公司。
彭毅補(bǔ)充道:“首先,搜狐是一個(gè)對高新技術(shù)很感興趣,也勇于嘗試的公司。第二,我們認(rèn)為英特爾是一個(gè)相對來說比較中立的公司,所以我們和英特爾合作的時(shí)候,相對來說可以互相坦誠,把需求和技術(shù)進(jìn)行很好的整合找到一個(gè)共同研究的項(xiàng)目和方向。”
作為ODCA(開放數(shù)據(jù)中心聯(lián)盟)的成員,搜狐在中國區(qū)的貢獻(xiàn)也不可忽視,可以說是互聯(lián)網(wǎng)行業(yè)首屈一指的貢獻(xiàn)者。僅僅從這一個(gè)項(xiàng)目來看,就在ODCA中引申出一些類似碳足跡、數(shù)據(jù)中心溫度、功耗控制等研究方向。這也是ODCA組織中國區(qū)在全球提出的屈指可數(shù)的幾個(gè)項(xiàng)目之一。也是因此,今年的ODCA大會上,搜狐被授予聯(lián)盟杰出貢獻(xiàn)者一獎(jiǎng)。