欧美肥老太交视频免费,18禁男女污污污午夜网站免费暖暖 ,亚洲欧美日韩国产一区二区三区精品

當CPU成為計算單元之一

責(zé)任編輯：editor005

作者：李冠楠

2016-06-06 14:20:26

摘自：TechTarget中國

面臨并沒有實際提升的單應(yīng)用性能，多核模式也無法向上擴展，以CPU為核心的設(shè)計模式遭遇瓶頸?！睋?jù)了解，這種智能卸載技術(shù)未來將擴展到更多的AI、DeepLearning場景

曾經(jīng)在21世紀前期大放異彩的CPU多核并行解決方案在今天已經(jīng)成了提升系統(tǒng)性能的瓶頸，新型智能卸載互連技術(shù)會是新的救星？

高性能計算發(fā)展至今以CPU為核心的設(shè)計架構(gòu)已成為瓶頸

過去15至20年，高性能計算的發(fā)展歷經(jīng)了一些重要的變革階段。首先是從最初的SMP這樣的小型機到集群系統(tǒng)的演變。2000年左右，計算機集群能夠通過更多的通用服務(wù)器去擴展，滿足性能的需求，而此時，集群式通訊像MPI這樣的方式就起到了重要的連接作用。

第二個階段是CPU由單核向多核的設(shè)計模式轉(zhuǎn)變。大概在2008年到2010年，單核心CPU的主頻已經(jīng)上升到了一個瓶頸，而采用并行的多核心CPU，讓處理器能夠同時執(zhí)行多個進程，有效的提升了系統(tǒng)性能。

但這種增加CPU核心數(shù)量的模式卻同時增加了互聯(lián)系統(tǒng)的負擔(dān)，也讓網(wǎng)絡(luò)互連成為系統(tǒng)性能的瓶頸。但其實，與通信模式相比，互連延遲的改進所能帶來的影響也是杯水車薪。目前，InfiniBand交換機的普遍延遲為90納秒，InfiniBand適配器的延遲是100納秒，而CPU處理的通信框架，比如MPI，它的延遲在幾十微秒范圍內(nèi)（1微秒=1000納秒）。這種不同數(shù)量級的通信延遲差距，讓我們意識到，在互連系統(tǒng)延遲方面所做的工作已經(jīng)價值不大。

面臨并沒有實際提升的單應(yīng)用性能，多核模式也無法向上擴展，以CPU為核心的設(shè)計模式遭遇瓶頸。當前階段，HPC市場正在歷經(jīng)新一輪的技術(shù)轉(zhuǎn)型。

接下來由多核轉(zhuǎn)向協(xié)處理？

在當前數(shù)據(jù)爆炸的時代，數(shù)據(jù)處理也要求更快更實時，按照傳統(tǒng)的方式，CPU需要等待數(shù)據(jù)傳輸，也就是數(shù)據(jù)傳輸和數(shù)據(jù)處理無法并行的“終極問題”，兩年前，有人提出讓數(shù)據(jù)更加靠近CPU，從而加快計算速度。然而這在當前大規(guī)模分布式數(shù)據(jù)存儲的今天看來，仍然不可行。那么由此就產(chǎn)生了分散設(shè)計的概念，讓網(wǎng)絡(luò)成為協(xié)同處理單元，承擔(dān)一部分計算任務(wù)，數(shù)據(jù)不需要移動到CPU才能計算，在移動到協(xié)處理器，分散的網(wǎng)絡(luò)節(jié)點就能夠執(zhí)行計算。從簡單的以CPU為核心的計算到CPU只作為計算單元之一，這種協(xié)同設(shè)計的思路的確讓人重燃希望。但也存在一些質(zhì)疑，網(wǎng)絡(luò)節(jié)點作為協(xié)處理器，它能承載的計算負荷將實現(xiàn)何種比例的性能轉(zhuǎn)化？而同時作為計算處理單元，勢必會影響到網(wǎng)絡(luò)節(jié)點本身的交換傳輸速率？軟件的設(shè)計真的能夠解決硬件無法突破的性能瓶頸嗎？作為一種革新的設(shè)計理念，是否能夠在當前的市場上獲得認可并得以推廣……

作為co-design的倡導(dǎo)者，Mellanox在最近發(fā)布的智能交換機Switch-IB 2當中展示了實踐成果。除了具備最快的90ns的延遲和豐富交換機特性之外，Switch-IB 2智能交換機的意義還在于它將原來在高性能計算里用得最多的MPI的操作，由CPU轉(zhuǎn)移到交換機來完成。Mellanox公司全球市場部副總裁Gilad Shainer表示：“這是在協(xié)同設(shè)計里面非常重要的一步，也是第一步，把集群的通訊移到交換機里去完成，通過這一步我們可以提高10倍的應(yīng)用程序的性能。”據(jù)了解，這種智能卸載技術(shù)未來將擴展到更多的AI、DeepLearning場景，除了在高性能計算領(lǐng)域，在更多的這種密集傳輸?shù)膱鼍跋?，智能的連接解決方案將大有可為。

co-design 分布式數(shù)據(jù)存儲