綠色、高效、智能:京東云算力基礎(chǔ)設(shè)施的可持續(xù)發(fā)展之道

責(zé)任編輯:cres

2024-10-11 17:26:57

摘自:京東云

在算力需求井噴的今天,數(shù)據(jù)中心作為數(shù)字經(jīng)濟(jì)的基石,其能效與可持續(xù)性成為了行業(yè)關(guān)注的焦點(diǎn)。作為云計(jì)算領(lǐng)域的佼佼者,京東云在為廣大用戶提供穩(wěn)定、高性能服務(wù)的同時(shí),也致力于實(shí)現(xiàn)智算的綠色、可持續(xù)發(fā)展。近日,京東云通過(guò)一場(chǎng)現(xiàn)場(chǎng)探訪直播,全面展示了京東云在算力基礎(chǔ)設(shè)施可持續(xù)發(fā)展方面的獨(dú)特優(yōu)勢(shì)與創(chuàng)新實(shí)踐。

智算基礎(chǔ)設(shè)施挑戰(zhàn)與突破

隨著人工智能、大數(shù)據(jù)、云計(jì)算等技術(shù)的飛速發(fā)展,算力需求呈爆炸式增長(zhǎng),也對(duì)算力基礎(chǔ)設(shè)施提出了前所未有的挑戰(zhàn)。高負(fù)載、高能效、高可用性,已成為對(duì)當(dāng)前智算中心的基礎(chǔ)要求。

“智算中心相對(duì)于傳統(tǒng)數(shù)據(jù)中心來(lái)說(shuō),要滿足集中化、高效化和快速化三個(gè)特點(diǎn)。”參加京東云“瘋狂星期四”直播的嘉賓,中國(guó)電子工程設(shè)計(jì)院數(shù)據(jù)中心事業(yè)部設(shè)備所所長(zhǎng)沈曉朋表示,隨著AI大模型的競(jìng)爭(zhēng)日益激烈,智算中心的建設(shè)需求與日俱增,服務(wù)器功率密度也逐年上升,這不僅要求基礎(chǔ)設(shè)施能夠快速響應(yīng),更要在能效、可靠性等方面達(dá)到新的高度。

 

京東云阿爾法智能算力模塊

 

京東云阿爾法智能算力模塊

京東云在此次直播中重點(diǎn)展示了其阿爾法算力模塊,該模塊針對(duì)高功率服務(wù)器集群量身定制,通過(guò)優(yōu)化電力供應(yīng)和散熱系統(tǒng),實(shí)現(xiàn)了顯著的能效提升。京東云技術(shù)專家介紹,阿爾法算力模塊通過(guò)風(fēng)墻精密空調(diào)、熱通道封閉與京東云智能京維平臺(tái)三管齊下,實(shí)現(xiàn)了模塊能耗降低30%的目標(biāo)。

快速交付也是阿爾法算力模塊的一大特色。在確保服務(wù)器大幅降低能耗的同時(shí),這種模塊化設(shè)計(jì)可以顯著加快部署速度。據(jù)介紹,從需求確認(rèn)起僅需35天,阿爾法算力模塊即可完成在工廠的預(yù)制,并在10天內(nèi)交付給客戶,整體部署可以控制在45天內(nèi)完成。

液冷技術(shù)的綠色革命

隨著算力密度的不斷提高,液冷作為一種更高效、節(jié)能的散熱技術(shù)走入了行業(yè)視野。作為一種新興技術(shù),雖然具備多重優(yōu)勢(shì),但在應(yīng)用普及的過(guò)程中,還面臨著用戶的諸多擔(dān)憂。

沈曉朋認(rèn)為,業(yè)內(nèi)對(duì)液冷應(yīng)用的擔(dān)憂主要集中在幾個(gè)方面:首先是標(biāo)準(zhǔn)不統(tǒng)一帶來(lái)的維護(hù)、遷移難題;其二是傳統(tǒng)風(fēng)冷數(shù)據(jù)中心的液冷化改造困難的問(wèn)題;其三是部分液冷技術(shù)采用的冷卻液泄露后會(huì)帶來(lái)一定的環(huán)境危害;最后沈曉朋表示,液冷系統(tǒng)的部署成本和投資回報(bào)比,也是當(dāng)前用戶重點(diǎn)關(guān)注的問(wèn)題之一。

京東云事業(yè)部AIDC業(yè)務(wù)部硬件架構(gòu)專家介紹,針對(duì)這些行業(yè)普遍擔(dān)憂的問(wèn)題,京東云推出了自研液冷服務(wù)器,通過(guò)模塊化設(shè)計(jì)和高可靠性材料的應(yīng)用,成功解決了傳統(tǒng)液冷方案的諸多痛點(diǎn)。

京東云自研液冷服務(wù)器經(jīng)歷了京東集團(tuán)內(nèi)部各業(yè)務(wù)的嚴(yán)苛考驗(yàn),可以實(shí)現(xiàn)PUE達(dá)到1.1以下,同時(shí)支持不同算力平臺(tái)的CPU、GPU核心750瓦以上的散熱需求。另外通過(guò)模塊化的設(shè)計(jì),可以直接替換傳統(tǒng)的風(fēng)冷散熱方案。

對(duì)于部署成本問(wèn)題,京東云技術(shù)專家表示:“液冷服務(wù)器在前期硬件投入上略高于傳統(tǒng)風(fēng)冷方案,但通過(guò)長(zhǎng)期運(yùn)營(yíng)中電費(fèi)、運(yùn)維成本的節(jié)省,只需要15個(gè)月左右就能實(shí)現(xiàn)總體成本的平衡,全生命周期可以實(shí)現(xiàn)5%左右的成本降低。”

 

京東云液冷服務(wù)器

 

京東云液冷服務(wù)器

京東云還通過(guò)現(xiàn)場(chǎng)直播,對(duì)自研液冷服務(wù)器進(jìn)行了一場(chǎng)“拆機(jī)秀”,由硬件工程師現(xiàn)場(chǎng)拆解并詳細(xì)展示液冷服務(wù)器的每一處細(xì)節(jié)。采用模塊化設(shè)計(jì)的京東云自研液冷服務(wù)器拆卸維護(hù)簡(jiǎn)便,包括電源、散熱器、網(wǎng)卡、進(jìn)水、出水管等,均可以通過(guò)標(biāo)準(zhǔn)件進(jìn)行直接替換。

服務(wù)賦能智算生態(tài)

除了硬件層面的創(chuàng)新外,在運(yùn)維服務(wù)方面,京東云也屢做創(chuàng)新,為智算業(yè)務(wù)的發(fā)展提供了強(qiáng)勁動(dòng)力。為更好地運(yùn)維智算中心,京東云自研了智能京維平臺(tái),通過(guò)引入先進(jìn)的人工智能技術(shù),內(nèi)置多個(gè)模塊幫助工程師來(lái)管理、維護(hù)系統(tǒng),實(shí)現(xiàn)對(duì)數(shù)據(jù)中心內(nèi)部數(shù)千設(shè)備的高度自洽管理和自運(yùn)維。

京東云智能京維平臺(tái)內(nèi)置節(jié)能寶模塊,利用大數(shù)據(jù)分析和AI算法,對(duì)制冷系統(tǒng)進(jìn)行精細(xì)化管理,優(yōu)化設(shè)備運(yùn)行邏輯,確保冷機(jī)、水泵等設(shè)備在最高效率下運(yùn)行。這種智能化的運(yùn)維方式不僅顯著降低了PUE值,減少了能耗,還提高了數(shù)據(jù)中心的穩(wěn)定性和可靠性。例如,京東云廊坊數(shù)據(jù)中心在節(jié)能寶的助力下,年均PUE降至1.19,實(shí)現(xiàn)了能效的大幅提升,為企業(yè)節(jié)省了巨額電費(fèi)開支。

面向越來(lái)越多的智算服務(wù)需求,京東云則推出了基于高性能、低延遲的裸金屬服務(wù)器的MaaS(Model as a Service)服務(wù)。通過(guò)容器化的形式,京東云將GPU算力以及預(yù)裝模型、輔助工具等統(tǒng)一提供給客戶,幫助客戶更好的訓(xùn)練自己的大模型。

京東云的裸金屬服務(wù)不僅適用于大型企業(yè)和科研機(jī)構(gòu),還通過(guò)靈活的配置和定價(jià)策略,滿足中小企業(yè)和個(gè)人用戶的多樣化需求。例如,其推出的GCS(GPU Computing Service)產(chǎn)品,以極低的成本提供了高性能的GPU算力服務(wù),讓更多人能夠輕松體驗(yàn)AI技術(shù)的魅力。

 

京東云數(shù)據(jù)中心

 

京東云數(shù)據(jù)中心

隨著算力需求的持續(xù)爆發(fā)和技術(shù)的不斷進(jìn)步,算力基礎(chǔ)設(shè)施的重要性日益凸顯。京東云憑借其在高效能算力模塊、綠色液冷技術(shù)和智能運(yùn)維平臺(tái)等方面的創(chuàng)新實(shí)踐,正逐步構(gòu)建起一套領(lǐng)先行業(yè)的算力基礎(chǔ)設(shè)施體系。未來(lái),隨著技術(shù)的不斷成熟和市場(chǎng)的持續(xù)拓展,京東云的創(chuàng)新與探索,將推動(dòng)整個(gè)行業(yè)向更高效、更綠色、更智能的方向發(fā)展。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)