2019天天拍天天拍天,2021天堂无码视频,成人看的午夜免费三级片

公共云巨頭微軟公司如何爭(zhēng)奪HPC霸主地位

責(zé)任編輯：cres

作者：Timothy Prickett Morgan

2019-12-23 11:05:43

來(lái)源：企業(yè)網(wǎng)D1Net

原創(chuàng)

微軟公司非常渴望在Azure公共云平臺(tái)上建立高性能計(jì)算(HPC)業(yè)務(wù)，從而讓用戶在外觀上和感覺(jué)上都像在自己的數(shù)據(jù)中心中部署的集群一樣，從而消除體驗(yàn)差異。

微軟Azure將Cray XC系列超級(jí)計(jì)算機(jī)和CS Storm集群應(yīng)用到其公共云中已有兩年多的時(shí)間，目前尚不清楚有多少用戶采用了Cray公司(現(xiàn)在是HPE公司的一部分)的產(chǎn)品。希望在公共云平臺(tái)上運(yùn)行高性能計(jì)算(HPC)和人工智能工作負(fù)載(尤其是GPU加速的工作負(fù)載)的用戶更有可能將現(xiàn)有實(shí)例集群集中在一起以創(chuàng)建虛擬超級(jí)計(jì)算機(jī)。

但是，微軟公司非?？释贏zure公共云平臺(tái)上建立高性能計(jì)算(HPC)業(yè)務(wù)，從而讓用戶在外觀上和感覺(jué)上都像在自己的數(shù)據(jù)中心中部署的集群一樣，從而消除體驗(yàn)差異。

微軟公司日前在丹佛舉行的SC19超級(jí)計(jì)算機(jī)會(huì)議上宣布，Azure新實(shí)例將在技術(shù)預(yù)覽版中發(fā)布，它實(shí)際上是微軟公司正在選定地區(qū)部署的100節(jié)點(diǎn)集群中的一個(gè)節(jié)點(diǎn)(目前還不清楚是哪一個(gè)節(jié)點(diǎn))。這個(gè)名為NDv2的高性能計(jì)算(HPC)實(shí)例顯然同樣適用于運(yùn)行機(jī)器學(xué)習(xí)訓(xùn)練工作負(fù)載以及GPU加速工作負(fù)載。NDv2實(shí)例是基于一個(gè)HGX的Tesla V100 GPU加速器捆綁在一起共享數(shù)據(jù)，通過(guò)NVLink(可以把它想象成Nvidia的DGX-2系統(tǒng)中一半的GPU復(fù)合體，其中抽出了NVSwitch，并在這些GPU之間直接引導(dǎo)NVLink，這樣它們就可以尋址彼此的32GB HBM2內(nèi)存)。這個(gè)GPU計(jì)算組件連接到主機(jī)CPU系統(tǒng)，該主機(jī)CPU系統(tǒng)基于一對(duì)20個(gè)“Skylake” Xeon SP-6168 Platinum核心處理器，該處理器運(yùn)行在2.7 GHz頻率上，并安裝在微軟公司自己開(kāi)發(fā)的“Project Olympus”系統(tǒng)中。服務(wù)器節(jié)點(diǎn)具有672 GB的內(nèi)存，這表明某個(gè)地方有一個(gè)虛擬機(jī)管理程序會(huì)消耗一些內(nèi)存資源。估計(jì)可能是96GB，并且這個(gè)超級(jí)計(jì)算機(jī)在其24個(gè)內(nèi)存插槽中裝有64GB的內(nèi)存條。

每個(gè)NDv2節(jié)點(diǎn)都有一個(gè)100Gb/秒的ConnectX-5網(wǎng)絡(luò)接口卡，可以和100 Gb/秒的EDR InfiniBand互連，這顯然是從Mellanox科技公司那里獲得的技術(shù)，Nvidia公司正在收購(gòu)該公司。多年來(lái)，以太網(wǎng)已切換到微軟公司的Azure公共云中。目前尚不清楚微軟公司正在使用哪種拓?fù)鋪?lái)相互鏈接NDv2實(shí)例，但是猜測(cè)它是高性能計(jì)算(HPC)和人工智能工作負(fù)載中通常使用的FatTree拓?fù)?，而不是超大?guī)模廠商和云計(jì)算供應(yīng)商通常使用的拓?fù)?。Nvidia公司副總裁兼加速計(jì)算總經(jīng)理Ian Buck表示，NDv2中的機(jī)器將以8臺(tái)服務(wù)器為一個(gè)單元的形式出售，總共有64個(gè)GPU，這意味著隨著用戶擴(kuò)展他們的NDv2集群，他們正在購(gòu)買一棵FatTree的相鄰分支。知道這一點(diǎn)，人們可能會(huì)認(rèn)為NDv2的高端Pod是96個(gè)節(jié)點(diǎn)，帶有768個(gè)GPU，但是被告知實(shí)際上是100個(gè)節(jié)點(diǎn)，總共有800個(gè)GPU。

這些系統(tǒng)顯然是在運(yùn)行某些Linux變體的情況下設(shè)置的(CentOS或Ubuntu Server是默認(rèn)版本，但Red Hat Enterprise Linux和SUSE Linux Enterprise Server也是一個(gè)很好的選項(xiàng))，并且可以通過(guò)以下方式獲得完整的Nvidia軟件堆棧：Nvidia NGC云或Azure市場(chǎng)。微軟公司表示已經(jīng)安裝了Mellanox OFED網(wǎng)絡(luò)驅(qū)動(dòng)程序(就像有任何其他選擇一樣)，并且支持所有MPI類型和版本。顯然，某處有一個(gè)虛擬機(jī)管理程序，大概是Hyper-V，微軟公司用來(lái)構(gòu)建Azure云。Hyper-V運(yùn)行時(shí)，沒(méi)有任何性能下降的跡象。

微軟公司目前還沒(méi)有正式公布其定價(jià)，但有消息表明，每個(gè)NDv2實(shí)例的定價(jià)將為26.44美元。但是需要了解所有的GPU性能和內(nèi)存帶寬帶來(lái)的負(fù)擔(dān)。而且，即使客戶沒(méi)有充分利用InfiniBand網(wǎng)絡(luò)的成本，也必須為此支付費(fèi)用。

如果沒(méi)有任何數(shù)據(jù)存儲(chǔ)服務(wù)，用戶將一個(gè)96節(jié)點(diǎn)的集群運(yùn)行三年將會(huì)花費(fèi)6,675萬(wàn)美元，并且這個(gè)超級(jí)計(jì)算機(jī)將具有5.76 petaflops的總峰值雙精度性能。DGX-1V具有8個(gè)Tesla V100和兩個(gè)Xeon處理器，大致類似于微軟公司為NDv2實(shí)例組裝的節(jié)點(diǎn)，當(dāng)前價(jià)格為119,000美元(低于兩年前發(fā)布時(shí)的169,000美元)。因此，其中96臺(tái)服務(wù)器將花費(fèi)1140萬(wàn)美元，其中包括大量的本地閃存和4倍的網(wǎng)絡(luò)帶寬。這些費(fèi)用并沒(méi)有包括電源、冷卻、房地產(chǎn)、系統(tǒng)管理或InfiniBand的交換機(jī)和布線成本，但是如果用戶將其向后計(jì)算并在四年內(nèi)攤銷，則僅硬件就具有相同的5.76 petaflops的性能，并且可以計(jì)算出DGX-1節(jié)點(diǎn)的費(fèi)用為每小時(shí)4.53美元，用戶自行承擔(dān)構(gòu)建一個(gè)96節(jié)點(diǎn)集群的成本，并了解如何比較它們的負(fù)擔(dān)?；蛘?，相當(dāng)于ODM和OEM服務(wù)器的成本，甚至比Nvidia公司的價(jià)格還要低。微軟公司為其公共云上的高性能計(jì)算(HPC)設(shè)置了上限。

這里要考慮的另一件事是利用率。為了進(jìn)行論證，假設(shè)一個(gè)內(nèi)部DGX-1集群每小時(shí)僅需花費(fèi)10美元，僅用于計(jì)算和聯(lián)網(wǎng)，而無(wú)需來(lái)自Pure Storage或DataDirect Networks的本地閃存存儲(chǔ)陣列，也無(wú)需使用Excelero、Vast Data或Lightbits自產(chǎn)實(shí)驗(yàn)室軟件定義的存儲(chǔ)。如果企業(yè)擁有自己的混合CPU-GPU集群，并且只在50%的時(shí)間內(nèi)使用它，那么實(shí)際上每小時(shí)要支付20美元才能擁有該集群。因此，云計(jì)算與內(nèi)部部署之間的差距很快就消除了。但是，用戶也可以使用ODM或OEM服務(wù)器來(lái)降低成本，例如浪潮、Supermicro、戴爾、HPE公司的服務(wù)器，而價(jià)格卻要比Nvidia公司要低得多，大概減少40%的成本。這樣可以降低一些總成本，但可能不會(huì)達(dá)到用戶的期望。如果提高利用率，那么每小時(shí)的本地成本也會(huì)下降。這里要了解的是，利用率是決定因素，而利用率模式可能會(huì)驅(qū)動(dòng)用戶選擇在內(nèi)部部署和云平臺(tái)部署多少容量。

或者只需管理所有這些，然后將其全部移至云中就可以。一些高性能計(jì)算(HPC)和人工智能從業(yè)者會(huì)這樣做，因?yàn)樗麄儾粫?huì)大規(guī)模運(yùn)作。

除了NDv2實(shí)例之外，微軟公司還將預(yù)覽其基于64核“Rome”Epyc 7742處理器的HBv2虛擬機(jī)，其中60個(gè)核心處理器用在Hyper-V虛擬機(jī)管理程序之上?；A(chǔ)節(jié)點(diǎn)有兩個(gè)這樣的處理器，核心處理器的運(yùn)行頻率為2.25 GHz，最高可提升至3.4 GHz。微軟公司表示，兩路HBv2節(jié)點(diǎn)可以雙精度提供4teraflops的總峰值浮點(diǎn)性能，此外，它已經(jīng)建立的網(wǎng)絡(luò)可以使用MPI跨越8萬(wàn)個(gè)核心處理器，Azure區(qū)域內(nèi)峰值容量的5.36 petaflops。順便說(shuō)一下，這些節(jié)點(diǎn)使用Mellanox的200Gb/秒的HDR InfiniBand互連，這是在公共云上首次使用HDR InfiniBand。HBv2實(shí)例具有480GB的可供應(yīng)用程序使用的內(nèi)存，并在兩個(gè)插槽之間提供350GB/秒的內(nèi)存帶寬。每小時(shí)收費(fèi)3.96美元。按照微軟公司在HBv2實(shí)例上為其HDR網(wǎng)絡(luò)提供的全部MPI可擴(kuò)展性限制(可能是672個(gè)節(jié)點(diǎn))，每小時(shí)僅需花費(fèi)2,661美元，即可使用按需實(shí)例租用5.36 petaflops云。其預(yù)留實(shí)例尚不可用，這將顯著降低價(jià)格。

微軟公司希望在Azure公共云上擁有數(shù)據(jù)啟示的四個(gè)主要功能，就像英特爾公司想要擁有一樣，而AMD公司正在通過(guò)合作伙伴關(guān)系和自己的芯片(CPU、GPU、FPGA和NNP)來(lái)實(shí)現(xiàn)這一目標(biāo)。為此，微軟公司正在預(yù)覽其NDv3實(shí)例，該實(shí)例將具有與一對(duì)具有768 GB內(nèi)存和8個(gè)Skylake Xeon SP-8168 Platinum處理器的基本Olympus服務(wù)器節(jié)點(diǎn)。每個(gè)Graphcore加速器都有一對(duì)IPU芯片，并提供1,216個(gè)IPU芯片，7,296個(gè)線程和300MB的內(nèi)存以及驚人的45TB/秒的內(nèi)存帶寬。Graphcore處理器上的16個(gè)IPU核心庫(kù)組通過(guò)專有的IPU-Exchange交換機(jī)連接，其總帶寬為8TB/ 秒，并且在NDv3實(shí)例中，使用專有的IPU鏈接將多達(dá)8個(gè)Graphcore芯片粘合在一起互連(這大致類似于帶有GPU的NVLink)。Graphcore芯片通過(guò)PCI-Express 4.0×16插槽連接到CPU結(jié)構(gòu)中。這些實(shí)例配備了Graphcore的Poplar軟件開(kāi)發(fā)套件。

此外，微軟公司承諾將在Azure上提供NP系列實(shí)例，該實(shí)例將公開(kāi)Xilinx的一到四個(gè)Alveo U250 FPGA加速器。該服務(wù)器將由與上述其他實(shí)例相同的基本服務(wù)器實(shí)例托管，并將預(yù)裝Xilinx的SDAccel 2019.1運(yùn)行時(shí)環(huán)境。

微軟公司尚未發(fā)布Graphcore NDv3系列和Xilinx U250 NP系列實(shí)例的價(jià)格。

在已經(jīng)出售其F1 FPGA實(shí)例并且尚未透露任何NNP實(shí)例計(jì)劃的AWS公共云上，SC19的目的是談?wù)撈湫碌腃5a和C5ad實(shí)例，它們將以裸機(jī)形式與192個(gè)虛擬實(shí)例一起提供。虛擬CPU(vCPU是跨激活內(nèi)核的線程)和384GB內(nèi)存。C5a使用網(wǎng)絡(luò)存儲(chǔ)，而C5ad具有7.6 TB的本地NVM-Express閃存存儲(chǔ)。對(duì)于虛擬化實(shí)例，CPU計(jì)算的比例將分成8個(gè)不同大小的實(shí)例，并且Nitro SmartNIC將處理絕大多數(shù)KVM虛擬機(jī)管理程序功能以及網(wǎng)絡(luò)、存儲(chǔ)和加速器虛擬化，從而釋放那些Skylake核心開(kāi)展真正的主機(jī)工作。在裸機(jī)模式下，C5a和C5ad Rome Epyc實(shí)例將有一個(gè)100Gb/秒的以太網(wǎng)接口連接到網(wǎng)絡(luò)，并且Elastic Fabric Adapter會(huì)根據(jù)CPU計(jì)算來(lái)擴(kuò)大或縮小規(guī)模。

版權(quán)聲明：本文為企業(yè)網(wǎng)D1Net編譯，轉(zhuǎn)載需注明出處為：企業(yè)網(wǎng)D1Net，如果不注明出處，企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。

云計(jì)算公共云微軟

公共云巨頭微軟公司如何爭(zhēng)奪HPC霸主地位

業(yè)務(wù)服務(wù)

網(wǎng)站地圖

友情鏈接

合作伙伴