被英特爾收購兩年后,Nervana的深度學(xué)習(xí)芯片,代號(hào)“Lake Crest” 漸漸從概念階段轉(zhuǎn)化為實(shí)際產(chǎn)品。
在深度學(xué)習(xí)市場潛力如此巨大的情況下,英特爾很樂意通過堅(jiān)實(shí)的技術(shù)和合理的價(jià)格將Nervana推向市場,積極為其規(guī)劃路線圖——并將其與其他產(chǎn)品相結(jié)合,這將是一項(xiàng)巨大的工程。
如今,我們對(duì)這個(gè)體系架構(gòu)與GPU的區(qū)別有了一些了解——以及它可能會(huì)在哪些方面獲得性能優(yōu)勢,更確切地說,能效優(yōu)勢。
英特爾Nervana芯片與第一代Nervana芯片非常類似,但由于英特爾提供了更多的專業(yè)知識(shí)和技術(shù),使該深度學(xué)習(xí)芯片的產(chǎn)品計(jì)劃每年都能按時(shí)進(jìn)行,正如Nervana四年前第一批員工,現(xiàn)在的英特爾AI硬件主管Carey Kloss所說:
“我們加入英特爾時(shí)沒有做多少改變,但是我們確實(shí)獲得了大量的一般初創(chuàng)企業(yè)沒有的技術(shù)資源,如封裝、電路板設(shè)計(jì)、功率輸出和實(shí)驗(yàn)室技術(shù)等——很多還是一樣的,但它的技術(shù)更先進(jìn)。” Kloss還表示,與他供職過的其他半導(dǎo)體公司相比,英特爾實(shí)驗(yàn)室的培養(yǎng)速度遠(yuǎn)遠(yuǎn)快于他所見過的任何機(jī)構(gòu),這使人們更加確信,英特爾公司新產(chǎn)品的年度銷售業(yè)績能夠保持在穩(wěn)健的業(yè)績曲線上。
現(xiàn)在,英特爾越來越接近于實(shí)現(xiàn)“Lake Crest”或稱其為英特爾神經(jīng)網(wǎng)絡(luò)處理器(NNP)的商業(yè)化供應(yīng),更多關(guān)于該硬件架構(gòu)的細(xì)節(jié)也正逐漸被分享出來。以下是關(guān)于NNP的一些細(xì)節(jié),以便我們對(duì)如何改變內(nèi)存帶寬瓶頸以實(shí)現(xiàn)高效的性能有更豐富的認(rèn)識(shí)。
NNP目前還沒有進(jìn)行基準(zhǔn)測試,不過Kloss表示,他們預(yù)計(jì)未來幾個(gè)月將有重大的性能進(jìn)展。
為了回顧和強(qiáng)調(diào)架構(gòu)是如何基本保持不變的,讓我們回到2016年它未被英特爾收購之前。當(dāng)時(shí)Nervana的CEO Naveen Rao表示NNP將成為NVIDIA新發(fā)布的NVlink的有力競爭者。Nervana 芯片的亮眼之處是互連,Rao 將這項(xiàng)互連技術(shù)描述為一種模塊化架構(gòu),其芯片結(jié)構(gòu)可以在編程上擴(kuò)展成與其它芯片的高速串行鏈接,這讓芯片之間的通信和單個(gè)芯片上各單元之間的通信看起來一樣。Rao說,在每秒凈運(yùn)算次數(shù)上,第一個(gè)Nervana芯片將會(huì)超過Pascal的5-6倍。
這些都沒有變化,除了FP16的增長和低精度的訓(xùn)練——這已成為一個(gè)更熱門的話題。今年晚些時(shí)候,Nervana會(huì)有一個(gè)引人注目的產(chǎn)品,以供更多的用戶使用——但它在性能、效率和可用性方面的優(yōu)勢還有待觀察。
最新的是人們期待已久的關(guān)于神經(jīng)芯片如何處理低精度訓(xùn)練的細(xì)節(jié),以及這種內(nèi)存和互連策略是什么樣子的。從本質(zhì)上講,使用16位整數(shù)的乘數(shù)和adder樹,與更標(biāo)準(zhǔn)的FP16方法相比,NNP可以同時(shí)節(jié)省功率和面積。這是一個(gè)有趣的參數(shù)折衷,因?yàn)镕P16擁有更小的乘數(shù),但使用adder樹和所有轉(zhuǎn)移所需的,就消除了FP16的假定優(yōu)勢。
在單個(gè)芯片上的神經(jīng)網(wǎng)絡(luò)計(jì)算在很大程度上受到功率和內(nèi)存帶寬的限制。為了提高神經(jīng)網(wǎng)絡(luò)工作負(fù)載的吞吐量,除了以上的內(nèi)存創(chuàng)新之外,我們還發(fā)明了一種新的數(shù)字格式Flexpoint。Flexpoint允許將標(biāo)量計(jì)算作為定點(diǎn)乘法和添加來實(shí)現(xiàn),同時(shí)允許使用共享指數(shù)實(shí)現(xiàn)大動(dòng)態(tài)范圍。由于每一個(gè)電路都是小的,這導(dǎo)致了一個(gè)管芯內(nèi)并行性的大幅增加,同時(shí)降低了每次計(jì)算的功率。
神經(jīng)網(wǎng)絡(luò)性能的另一方面在于內(nèi)存和網(wǎng)絡(luò)如何提高帶寬。Nervana的目標(biāo)是最大限度地增加矩陣乘法和卷積的面積,而不是將那些區(qū)域浪費(fèi)在其他東西上。有了足夠大的神經(jīng)網(wǎng)絡(luò),可以將外部網(wǎng)絡(luò)擴(kuò)展到多個(gè)芯片,在這些芯片之間有足夠的帶寬,使得所有的芯片都可以作為一個(gè)巨大的計(jì)算節(jié)點(diǎn)運(yùn)行。
矩陣乘法和卷積是深度學(xué)習(xí)的核心要素。這些計(jì)算不同于一般用途的工作負(fù)載,因?yàn)椴僮骱蛿?shù)據(jù)移動(dòng)在很大程度上是預(yù)先知道的。出于這個(gè)原因,英特爾Nervana NNP沒有標(biāo)準(zhǔn)的緩存層次結(jié)構(gòu),而芯片內(nèi)存則由軟件直接管理。更好的內(nèi)存管理使芯片能夠在每個(gè)芯片上實(shí)現(xiàn)高水平的計(jì)算。這就意味著為深度學(xué)習(xí)模型帶來更快的訓(xùn)練時(shí)間。
英特爾在深度學(xué)習(xí)方面的目標(biāo)是為所有規(guī)模的應(yīng)用提供一個(gè)產(chǎn)品。除了這篇文章中提到的Nervana芯片之外,還包括FPGA,以及大規(guī)模機(jī)器學(xué)習(xí)推理的Movidius神經(jīng)計(jì)算棒等。時(shí)間會(huì)告訴我們,在最初的“火熱”過后,英特爾能在多大程度上實(shí)現(xiàn)這一目標(biāo)。