但是,微軟公司非??释贏zure公共云平臺(tái)上建立高性能計(jì)算(HPC)業(yè)務(wù),從而讓用戶在外觀上和感覺(jué)上都像在自己的數(shù)據(jù)中心中部署的集群一樣,從而消除體驗(yàn)差異。
微軟公司日前在丹佛舉行的SC19超級(jí)計(jì)算機(jī)會(huì)議上宣布,Azure新實(shí)例將在技術(shù)預(yù)覽版中發(fā)布,它實(shí)際上是微軟公司正在選定地區(qū)部署的100節(jié)點(diǎn)集群中的一個(gè)節(jié)點(diǎn)(目前還不清楚是哪一個(gè)節(jié)點(diǎn))。這個(gè)名為NDv2的高性能計(jì)算(HPC)實(shí)例顯然同樣適用于運(yùn)行機(jī)器學(xué)習(xí)訓(xùn)練工作負(fù)載以及GPU加速工作負(fù)載。NDv2實(shí)例是基于一個(gè)HGX的Tesla V100 GPU加速器捆綁在一起共享數(shù)據(jù),通過(guò)NVLink(可以把它想象成Nvidia的DGX-2系統(tǒng)中一半的GPU復(fù)合體,其中抽出了NVSwitch,并在這些GPU之間直接引導(dǎo)NVLink,這樣它們就可以尋址彼此的32GB HBM2內(nèi)存)。這個(gè)GPU計(jì)算組件連接到主機(jī)CPU系統(tǒng),該主機(jī)CPU系統(tǒng)基于一對(duì)20個(gè)“Skylake” Xeon SP-6168 Platinum核心處理器,該處理器運(yùn)行在2.7 GHz頻率上,并安裝在微軟公司自己開(kāi)發(fā)的“Project Olympus”系統(tǒng)中。服務(wù)器節(jié)點(diǎn)具有672 GB的內(nèi)存,這表明某個(gè)地方有一個(gè)虛擬機(jī)管理程序會(huì)消耗一些內(nèi)存資源。估計(jì)可能是96GB,并且這個(gè)超級(jí)計(jì)算機(jī)在其24個(gè)內(nèi)存插槽中裝有64GB的內(nèi)存條。
每個(gè)NDv2節(jié)點(diǎn)都有一個(gè)100Gb/秒的ConnectX-5網(wǎng)絡(luò)接口卡,可以和100 Gb/秒的EDR InfiniBand互連,這顯然是從Mellanox科技公司那里獲得的技術(shù),Nvidia公司正在收購(gòu)該公司。多年來(lái),以太網(wǎng)已切換到微軟公司的Azure公共云中。目前尚不清楚微軟公司正在使用哪種拓?fù)鋪?lái)相互鏈接NDv2實(shí)例,但是猜測(cè)它是高性能計(jì)算(HPC)和人工智能工作負(fù)載中通常使用的FatTree拓?fù)?,而不是超大?guī)模廠商和云計(jì)算供應(yīng)商通常使用的拓?fù)?。Nvidia公司副總裁兼加速計(jì)算總經(jīng)理Ian Buck表示,NDv2中的機(jī)器將以8臺(tái)服務(wù)器為一個(gè)單元的形式出售,總共有64個(gè)GPU,這意味著隨著用戶擴(kuò)展他們的NDv2集群,他們正在購(gòu)買一棵FatTree的相鄰分支。知道這一點(diǎn),人們可能會(huì)認(rèn)為NDv2的高端Pod是96個(gè)節(jié)點(diǎn),帶有768個(gè)GPU,但是被告知實(shí)際上是100個(gè)節(jié)點(diǎn),總共有800個(gè)GPU。
這些系統(tǒng)顯然是在運(yùn)行某些Linux變體的情況下設(shè)置的(CentOS或Ubuntu Server是默認(rèn)版本,但Red Hat Enterprise Linux和SUSE Linux Enterprise Server也是一個(gè)很好的選項(xiàng)),并且可以通過(guò)以下方式獲得完整的Nvidia軟件堆棧:Nvidia NGC云或Azure市場(chǎng)。微軟公司表示已經(jīng)安裝了Mellanox OFED網(wǎng)絡(luò)驅(qū)動(dòng)程序(就像有任何其他選擇一樣),并且支持所有MPI類型和版本。顯然,某處有一個(gè)虛擬機(jī)管理程序,大概是Hyper-V,微軟公司用來(lái)構(gòu)建Azure云。Hyper-V運(yùn)行時(shí),沒(méi)有任何性能下降的跡象。
微軟公司目前還沒(méi)有正式公布其定價(jià),但有消息表明,每個(gè)NDv2實(shí)例的定價(jià)將為26.44美元。但是需要了解所有的GPU性能和內(nèi)存帶寬帶來(lái)的負(fù)擔(dān)。而且,即使客戶沒(méi)有充分利用InfiniBand網(wǎng)絡(luò)的成本,也必須為此支付費(fèi)用。
如果沒(méi)有任何數(shù)據(jù)存儲(chǔ)服務(wù),用戶將一個(gè)96節(jié)點(diǎn)的集群運(yùn)行三年將會(huì)花費(fèi)6,675萬(wàn)美元,并且這個(gè)超級(jí)計(jì)算機(jī)將具有5.76 petaflops的總峰值雙精度性能。DGX-1V具有8個(gè)Tesla V100和兩個(gè)Xeon處理器,大致類似于微軟公司為NDv2實(shí)例組裝的節(jié)點(diǎn),當(dāng)前價(jià)格為119,000美元(低于兩年前發(fā)布時(shí)的169,000美元)。因此,其中96臺(tái)服務(wù)器將花費(fèi)1140萬(wàn)美元,其中包括大量的本地閃存和4倍的網(wǎng)絡(luò)帶寬。這些費(fèi)用并沒(méi)有包括電源、冷卻、房地產(chǎn)、系統(tǒng)管理或InfiniBand的交換機(jī)和布線成本,但是如果用戶將其向后計(jì)算并在四年內(nèi)攤銷,則僅硬件就具有相同的5.76 petaflops的性能,并且可以計(jì)算出DGX-1節(jié)點(diǎn)的費(fèi)用為每小時(shí)4.53美元,用戶自行承擔(dān)構(gòu)建一個(gè)96節(jié)點(diǎn)集群的成本,并了解如何比較它們的負(fù)擔(dān)?;蛘?,相當(dāng)于ODM和OEM服務(wù)器的成本,甚至比Nvidia公司的價(jià)格還要低。微軟公司為其公共云上的高性能計(jì)算(HPC)設(shè)置了上限。
這里要考慮的另一件事是利用率。為了進(jìn)行論證,假設(shè)一個(gè)內(nèi)部DGX-1集群每小時(shí)僅需花費(fèi)10美元,僅用于計(jì)算和聯(lián)網(wǎng),而無(wú)需來(lái)自Pure Storage或DataDirect Networks的本地閃存存儲(chǔ)陣列,也無(wú)需使用Excelero、Vast Data或Lightbits自產(chǎn)實(shí)驗(yàn)室軟件定義的存儲(chǔ)。如果企業(yè)擁有自己的混合CPU-GPU集群,并且只在50%的時(shí)間內(nèi)使用它,那么實(shí)際上每小時(shí)要支付20美元才能擁有該集群。因此,云計(jì)算與內(nèi)部部署之間的差距很快就消除了。但是,用戶也可以使用ODM或OEM服務(wù)器來(lái)降低成本,例如浪潮、Supermicro、戴爾、HPE公司的服務(wù)器,而價(jià)格卻要比Nvidia公司要低得多,大概減少40%的成本。這樣可以降低一些總成本,但可能不會(huì)達(dá)到用戶的期望。如果提高利用率,那么每小時(shí)的本地成本也會(huì)下降。這里要了解的是,利用率是決定因素,而利用率模式可能會(huì)驅(qū)動(dòng)用戶選擇在內(nèi)部部署和云平臺(tái)部署多少容量。
或者只需管理所有這些,然后將其全部移至云中就可以。一些高性能計(jì)算(HPC)和人工智能從業(yè)者會(huì)這樣做,因?yàn)樗麄儾粫?huì)大規(guī)模運(yùn)作。
除了NDv2實(shí)例之外,微軟公司還將預(yù)覽其基于64核“Rome”Epyc 7742處理器的HBv2虛擬機(jī),其中60個(gè)核心處理器用在Hyper-V虛擬機(jī)管理程序之上?;A(chǔ)節(jié)點(diǎn)有兩個(gè)這樣的處理器,核心處理器的運(yùn)行頻率為2.25 GHz,最高可提升至3.4 GHz。微軟公司表示,兩路HBv2節(jié)點(diǎn)可以雙精度提供4teraflops的總峰值浮點(diǎn)性能,此外,它已經(jīng)建立的網(wǎng)絡(luò)可以使用MPI跨越8萬(wàn)個(gè)核心處理器,Azure區(qū)域內(nèi)峰值容量的5.36 petaflops。順便說(shuō)一下,這些節(jié)點(diǎn)使用Mellanox的200Gb/秒的HDR InfiniBand互連,這是在公共云上首次使用HDR InfiniBand。HBv2實(shí)例具有480GB的可供應(yīng)用程序使用的內(nèi)存,并在兩個(gè)插槽之間提供350GB/秒的內(nèi)存帶寬。每小時(shí)收費(fèi)3.96美元。按照微軟公司在HBv2實(shí)例上為其HDR網(wǎng)絡(luò)提供的全部MPI可擴(kuò)展性限制(可能是672個(gè)節(jié)點(diǎn)),每小時(shí)僅需花費(fèi)2,661美元,即可使用按需實(shí)例租用5.36 petaflops云。其預(yù)留實(shí)例尚不可用,這將顯著降低價(jià)格。
微軟公司希望在Azure公共云上擁有數(shù)據(jù)啟示的四個(gè)主要功能,就像英特爾公司想要擁有一樣,而AMD公司正在通過(guò)合作伙伴關(guān)系和自己的芯片(CPU、GPU、FPGA和NNP)來(lái)實(shí)現(xiàn)這一目標(biāo)。為此,微軟公司正在預(yù)覽其NDv3實(shí)例,該實(shí)例將具有與一對(duì)具有768 GB內(nèi)存和8個(gè)Skylake Xeon SP-8168 Platinum處理器的基本Olympus服務(wù)器節(jié)點(diǎn)。每個(gè)Graphcore加速器都有一對(duì)IPU芯片,并提供1,216個(gè)IPU芯片,7,296個(gè)線程和300MB的內(nèi)存以及驚人的45TB/秒的內(nèi)存帶寬。Graphcore處理器上的16個(gè)IPU核心庫(kù)組通過(guò)專有的IPU-Exchange交換機(jī)連接,其總帶寬為8TB/ 秒,并且在NDv3實(shí)例中,使用專有的IPU鏈接將多達(dá)8個(gè)Graphcore芯片粘合在一起互連(這大致類似于帶有GPU的NVLink)。Graphcore芯片通過(guò)PCI-Express 4.0×16插槽連接到CPU結(jié)構(gòu)中。這些實(shí)例配備了Graphcore的Poplar軟件開(kāi)發(fā)套件。
此外,微軟公司承諾將在Azure上提供NP系列實(shí)例,該實(shí)例將公開(kāi)Xilinx的一到四個(gè)Alveo U250 FPGA加速器。該服務(wù)器將由與上述其他實(shí)例相同的基本服務(wù)器實(shí)例托管,并將預(yù)裝Xilinx的SDAccel 2019.1運(yùn)行時(shí)環(huán)境。
微軟公司尚未發(fā)布Graphcore NDv3系列和Xilinx U250 NP系列實(shí)例的價(jià)格。
在已經(jīng)出售其F1 FPGA實(shí)例并且尚未透露任何NNP實(shí)例計(jì)劃的AWS公共云上,SC19的目的是談?wù)撈湫碌腃5a和C5ad實(shí)例,它們將以裸機(jī)形式與192個(gè)虛擬實(shí)例一起提供。虛擬CPU(vCPU是跨激活內(nèi)核的線程)和384GB內(nèi)存。C5a使用網(wǎng)絡(luò)存儲(chǔ),而C5ad具有7.6 TB的本地NVM-Express閃存存儲(chǔ)。對(duì)于虛擬化實(shí)例,CPU計(jì)算的比例將分成8個(gè)不同大小的實(shí)例,并且Nitro SmartNIC將處理絕大多數(shù)KVM虛擬機(jī)管理程序功能以及網(wǎng)絡(luò)、存儲(chǔ)和加速器虛擬化,從而釋放那些Skylake核心開(kāi)展真正的主機(jī)工作。在裸機(jī)模式下,C5a和C5ad Rome Epyc實(shí)例將有一個(gè)100Gb/秒的以太網(wǎng)接口連接到網(wǎng)絡(luò),并且Elastic Fabric Adapter會(huì)根據(jù)CPU計(jì)算來(lái)擴(kuò)大或縮小規(guī)模。
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。