谷歌發(fā)論文披露TPU詳細(xì)信息,比GPU、CPU快15-30倍

責(zé)任編輯:editor004

作者:量子位

2017-04-10 12:03:01

摘自:創(chuàng)事記

該公司從2015年開(kāi)始就一直在內(nèi)部使用TPU,并在去年5月的Google I O開(kāi)發(fā)者大會(huì)上,對(duì)外公布了這種芯片的存在?!薄 ≌撐姆Q,通常而言,在TPU上運(yùn)行代碼跟使用谷歌領(lǐng)導(dǎo)的TsensorFlow開(kāi)源深度學(xué)習(xí)框架一樣簡(jiǎn)單。

  △ TPU的印刷電路板

歡迎關(guān)注“創(chuàng)事記”的微信訂閱號(hào):sinachuangshiji

文/李杉編譯整理 來(lái)源:量子位公眾號(hào) QbitAI

自從Google去年透露自己開(kāi)發(fā)了一款名為T(mén)PU的專用芯片,用于提高人工智能計(jì)算任務(wù)的執(zhí)行效率,關(guān)于這種新芯片的猜測(cè)就從未停止。

今天,Google終于披露了關(guān)于TPU的更多信息。除了發(fā)表一篇有75位聯(lián)合作者的論文《In-Datacenter Performance Analysis of a Tensor Processing UnitTM》外,文章的第四作者David Patterson還在美國(guó)國(guó)家工程院的活動(dòng)上發(fā)表了演講。

關(guān)于TPU的論文將正式發(fā)表于今年6月在多倫多召開(kāi)的計(jì)算機(jī)體系結(jié)構(gòu)國(guó)際研討會(huì)(International Symposium on Computer Architecture, ISCA),Google目前已經(jīng)在Google Drive上將其公開(kāi)。

該公司從2015年開(kāi)始就一直在內(nèi)部使用TPU,并在去年5月的Google I/O開(kāi)發(fā)者大會(huì)上,對(duì)外公布了這種芯片的存在。

TPU是一種ASIC(專用集成電路),Google將其用在神經(jīng)網(wǎng)絡(luò)的第二個(gè)步驟。使用神經(jīng)網(wǎng)絡(luò)首先要用大量數(shù)據(jù)進(jìn)行訓(xùn)練,通常在使用GPU加速的服務(wù)器上進(jìn)行。之后,該公司便會(huì)開(kāi)始使用TPU加速新數(shù)據(jù)的推斷。谷歌表示,這比直接使用GPU或基本的x86芯片速度快很多。

他們?cè)谡撐闹袑?xiě)道:“盡管某些應(yīng)用的利用率較低,但TPU平均比GPU或CPU速度快15至30倍左右。”其中的GPU或CPU具體指的是英偉達(dá)的Tesla K80 GPU和英特爾的至強(qiáng)E5-2699 v3芯片,后者可以成為T(mén)PU的底層平臺(tái)。

過(guò)去5年,英偉達(dá)等公司的GPU已經(jīng)成為經(jīng)濟(jì)型深度學(xué)習(xí)系統(tǒng)的默認(rèn)基礎(chǔ)架構(gòu),而谷歌也對(duì)此做出了貢獻(xiàn)。但谷歌和微軟等公司還在探索其他類型的人工智能芯片,包括FPGA(現(xiàn)場(chǎng)可編程門(mén)陣列器件)。谷歌的項(xiàng)目因?yàn)槠鋪?lái)源和使用范圍而受到關(guān)注,該公司工程師Norm Jouppi在博客中寫(xiě)道,這套系統(tǒng)已經(jīng)應(yīng)用于谷歌圖片搜索、Google Photos和谷歌云視覺(jué)應(yīng)用API等服務(wù)。

該論文稱,一個(gè)TPU的片上內(nèi)存容量達(dá)到Tesla K80的3.5倍,而且體積更小。每耗電1瓦的性能則高出30至80倍。谷歌目前可以將兩個(gè)TPU安裝到一臺(tái)服務(wù)器中,但這并不表示他們不會(huì)開(kāi)發(fā)其他更強(qiáng)大或更經(jīng)濟(jì)的硬件系統(tǒng)。

谷歌對(duì)人工智能網(wǎng)絡(luò)的重視高于很多科技公司,他們2013年就認(rèn)定這項(xiàng)技術(shù)廣受歡迎,可以將其數(shù)據(jù)中心的計(jì)算需求擴(kuò)大一倍。如果完全使用標(biāo)準(zhǔn)芯片,成本將十分高昂,難以承受。所以谷歌開(kāi)始開(kāi)發(fā)自己的技術(shù),希望實(shí)現(xiàn)10倍于GPU的成本效益。

“我們沒(méi)有與CPU密切整合,為了減少延遲部署的幾率,TPU設(shè)計(jì)成了一個(gè)PCIe I/O總線上的協(xié)處理器,使之可以像GPU一樣插到現(xiàn)有的服務(wù)器上。”論文還寫(xiě)道,“另外,為了簡(jiǎn)化硬件設(shè)計(jì)和調(diào)試過(guò)程,主服務(wù)器發(fā)送指令讓TPU來(lái)執(zhí)行,而不會(huì)自主執(zhí)行。因此,與TPU更加接近的是FPU(浮點(diǎn)單元)協(xié)處理器,而非GPU。目標(biāo)是在TPU運(yùn)行完整的推理模型,降低與主CPU的互動(dòng),并使之足以靈活地滿足2015年及之后的神經(jīng)網(wǎng)絡(luò)需求,而不僅僅適用于2013年的神經(jīng)網(wǎng)絡(luò)。”

論文稱,通常而言,在TPU上運(yùn)行代碼跟使用谷歌領(lǐng)導(dǎo)的TsensorFlow開(kāi)源深度學(xué)習(xí)框架一樣簡(jiǎn)單。

量子位提示:Google在論文中提到的測(cè)試結(jié)果,都是基于該公司自己的測(cè)試標(biāo)準(zhǔn)。

更多信息見(jiàn)Google公布的論文,地址:

https://drive.google.com/file/d/0Bx4hafXDDq2EMzRNcy1vSUxtcEk/view。

  

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)