亚洲第一无码精品一区,2012中文字幕在线高清视频,亚洲免费一级字幕

對話NVIDIA工程副總裁：GPU計算技術趨勢解析

責任編輯：editor006

作者：周建丁

2015-11-19 16:16:26

摘自：CSDN

在最近的2015年全國高性能計算學術年會（HPC China 2015）上，NVIDIA解決方案工程架構副總裁Marc Hamilton接受CSDN記者的采訪，分享利用GPU加速應用的技術趨勢和GPU技術研發(fā)新動向。

在最近的2015年全國高性能計算學術年會（HPC China 2015）上，NVIDIA解決方案工程架構副總裁Marc Hamilton接受CSDN記者的采訪，分享利用GPU加速應用的技術趨勢和GPU技術研發(fā)新動向。他表示，GPU加速是“后摩爾定律”時代應用最廣泛的加速計算技術，而加速市場的重心在深度學習及其相關的視覺計算，未來NVIDIA會繼續(xù)專注于視覺和加速計算。

和Marc Hamilton一同接受采訪的還有NVIDIA全球副總裁、PSG&云計算業(yè)務總經理Ashok Pandey，他介紹了NVIDIA加速計算技術在中國市場的本地化工作以及一些應用進展。

定制加速不如通用GPU

在科學計算、大數據分析、深度學習等領域，對高性能計算的需求是不言而喻的，目前最典型的還是深度學習。NVIDIA認為，當前深度學習流行的主要原因之一，就是GPU所帶來的巨大可用的計算能力。比如在深度學習網絡當中，有很多以十億為單位來計算的參數量，那這種對數據和計算能力有非常高的要求的這種訓練，是非常適合來用GPU進行的。

深度學習從業(yè)者尋求的加速方案包括GPU、FPGA以及類腦芯片等，后者包括完全非馮諾依曼架構的系統(tǒng)，如IBM的SyNAPSE，以及加速芯片的形式，如中國的寒武紀。Marc Hamilton認為，這些不同加速芯片的出現，都是為了應對傳統(tǒng)的芯片面臨挑戰(zhàn)的問題——我們已經接近了摩爾定律描述的末端，未來沒有辦法再繼續(xù)依賴于摩爾定律來實現最高的性能。

數字為證：

高性能計算的應用當中，前十個當中九個都是在GPU上面來進行使用的。

前一百的超級計算機當中所有應用當中有70%計算周期，都是在GPU上面來進行的，其中也包括了所有主要的深度學習的這些應用。

或許是由于類腦芯片目前還是概念，Marc Hamilton沒有從架構層面對比類腦架構與GPU加速架構的優(yōu)劣。他表示，目前關于深度學習的這種訓練，基本上100%都是用GPU來做的。FPGA受到的關注，跟最近英特爾花了170億重金收購一家FPGA公司的新聞有關。實際上在深度學習方面，通過FPGA技術運行的應用程序非常少，可能FPGA技術的應用更集中于解決分類和推斷的部分。

他談到了深度學習在醫(yī)療影像當中的一個應用例子，在美國加州眼科醫(yī)生協(xié)會，他們組織了一次比賽，這個比賽的背景是這樣的：在18-55歲的成年人當中，造成致盲最主要的因素是糖尿病所引起的并發(fā)癥，如果你定期進行眼科的檢查，你只需要用普通的相機拍一個靠近眼底的照片，就可以做出一些判斷，看一看到底是不是糖尿病的并發(fā)癥在你的眼睛當中出現了，但不是所有人都可以很方便地獲得眼科醫(yī)生的幫助，而且眼科醫(yī)生本身的判斷準確性也只有85%左右。最終總共有300多人提交了他們的成果，大部分使用的都是深度學習的一些技術，最后勝出的基本上都是基于GPU深度學習的技術，最終三個獲獎的技術都是能夠預測的糖尿病的并發(fā)癥，在眼底當中表現的準確性，高于人類的醫(yī)生能夠所達到85%的準確性，基于GPU深度學習的技術，帶來醫(yī)療影像上面很大的一些突破。

NVIDIA的GPU有幾條產品線，GeForce主要是針對于游戲的，但是對深度學習開發(fā)者來說也是非常好用的，相對而言它的價格比較低，很多計算機廠商都會使用這個GPU的產品，所以在市場上的可得性是非常好的，而且對于很多普通的開發(fā)者來說，這個是他們可以使用GPU最有成本效益的方式，這也是GeForce戰(zhàn)略當中很重要的一部分。

而要使更多的人使用GPU，就是通過云的方式，實際上在AWS里面提供GPU的服務已經有很多年了，在去年這一年當中，包括阿里云在內，還有包括微軟的Azure，也都宣布了在他們云服務當中，是可以提供GPU的?，F在應該說GPU是目前云服務當中唯一可以獲得加速的技術。對于云服務提供商來說，他們肯定不會說是自己一定非要提供這個服務，肯定是對于這樣一種加速的技術有需求，才會在云端來提供GPU。

具體的選擇上，Marc Hamilton表示，在Tesla加速計算平臺的品牌下面，實際上也是有多種價位的GPU產品，對于大多數深度學習應用來說，最合適的GPU就是K40，不是因為它比K80要便宜，而是因為它的架構相對于目前深度學習的應用來說是最為合適的，以NVIDIA現在一些產品可能針對不同的客戶應用，是有一些相應的優(yōu)化。所以針對于不同的應用，不同的品有各自的最好性價比。

Tesla K80雙GPU加速器是當前Tesla的最新旗艦，它擁有帶寬極高的24GB內存、高達8.74TFlops的單精度峰值浮點性能和高達2.91 TFlops的雙精度峰值浮點性能。IBM和微軟都是宣布了會在他們的云服務當中來提供K80的GPU，阿里云也是在進行相關的一些論證，可能在未來也會推出。這些都說明了K80的吸引力。NVIDIA認為，K80對于油氣行業(yè)這個應用程序來說是最優(yōu)化的，也是最具有性價比，能夠有最大的價值。

對于缺乏專門定制化的加速芯片來提升深度學習系統(tǒng)性能的問題，Marc Hamilton認為，確實定制化的加速芯片速度會加快，但是它主要有兩個問題：

經濟性是一個非常需要考量的因素?，F在的制程技術越來越高級，包括芯片的制造，設計等，整個費用會非常高，比如利用現在的10納米制程技術設計，再進行真的生產芯片，即便眼膜可能就需要一千萬美元。

芯片的變化是非?？斓模赡芎芸炀完惻f，如果是一個定制化的芯片，繼續(xù)更新可能只能再用一個新的芯片替換它，面對著像深度學習這樣一個快速迭代的技術，原來芯片剛剛生產出來的時候，它已經過時了。所以從整個技術發(fā)展速度和經營的角度考慮，做定制化的芯片，目前并不是一個最為合適的選擇。而通用的GPU，無論是用作游戲的用途，或者說用在自動駕駛汽車里面，或者深度學習，可能GPU都是差不多的，只是上面編程不一樣，所以可以用在不同的應用。

對于性能追逐者，一個好消息是，明年NVIDIA將要出貨的Pscal GPU，相比較現在的GPU預計將會有十倍的性能提升。只依靠摩爾定律，十倍性能提升是很難實現的。Pscal GPU的實現來自三個方面的原因：

摩爾定律本身確實貢獻了一部分的性能提升。

在架構上面的變化。NVIDIA將于明年面世的下一代GPU架構Pascal和NVLink高速互聯技術，將為數據中心和深度學習提供更加強大的加速動力。

在軟件方面實現性能提升。從現在到明年的Pscal GPU出貨的空間，通過cuDNN的軟件（cuDNN深度神經網絡庫，可以支持很多常用的函數和功能），還會再進一步實現性能的提升。NVIDIA希望每年都可以通過硬件和軟件的更新來實現更高的性能。例如在過去這一年當中，NVIDIA通過cuDNN3.0版本實現了性能的翻番。

生態(tài)構建

生態(tài)方面，Marc Hamilton強調了在OpenPOWER的進展，即將問世的NVLink高速GPU互聯技術將會支持OpenPOWER。他表示，IBM出貨帶有GPU加速的OpenPOWER8的系統(tǒng)已有一年多，在去年的HPC中國大會上，就推出了第一款企業(yè)級Power8的系統(tǒng)，在上個月也推出了一個相對來說成本比較低的，針對HPC進行了優(yōu)化的一款平臺的產品，這個也是帶有GPU的Power8系統(tǒng)。

開發(fā)支持方面，現在有CUDA編程環(huán)境，為OpenPOWER系統(tǒng)提供了運行應用程序的基礎。不僅僅是IBM已經宣布了要支持在OpenPOWER關鍵的應用程序，包括像DB2的數據庫，而且還有一些第三方已經把他們相關一些應用程序移植到了OpenPOWER的平臺上，比如大數據領域新的內存內數據庫，還有一些是在GPU內存內的這種數據庫，在美國有一個叫做GPU DB，利用的是在GPU的內存，現在也都可以在OpenPOWER上面得到支持。

談到的另一個方面是ARM，Marc Hamilton表示，從戰(zhàn)略上來說，NVIDIA會去支持客戶有需求的所有CPU架構，而很多國家的客戶都提出了希望支持ARM架構的需求。

NVIDIA支持ARM的處理器廠商，以及系統(tǒng)的廠商等，比如AppliedMicro、Cavium等公司，明年估計也會有幾個中國的處理器合作伙伴公布，然后會有多家OEM廠商出貨相關的產品。此外，CUDA工具包已經支持ARM的架構，NVIDIA會繼續(xù)和整個的ARM社區(qū)保持合作。

中國市場的進展

Marc Hamilton對中國市場的進展很滿意。他表示，具體看亞太區(qū)深度學習的市場，毫無疑問中國是最領先的，從GPU銷售量來看，中國和美國把持前兩名的位置?，F在所銷售的用于深度學習的GPU，大部分是用于教深度學習訓練的，因為你首先得要對深度學習的系統(tǒng)來進行訓練，然后才能部署到實際生產環(huán)境當中。

他認為，在未來，深度學習里面涉及到推斷和視頻處理方面，GPU的應用會有非常好的前景和增長。因為現在從視頻來說，有大量的視頻上傳和下載，增長速度超過了摩爾定律所能夠帶來的性能提升的速度，現在無論是做社交網絡公司還是搜索公司，他們的數據中心已經非常飽和，增加更多的機器也好，或者是CPU的更新換代也好，都很難趕得上推斷和視頻處理需要的速度?，F在多數公司可能還是通過CPU來進行這些相關的這種推斷和視頻的處理，但是在未來會利用GPU進行加速。

具體而言，在互聯網上產生這些視頻所帶來的計算需求，可能有幾個方面，第一個就是視頻的編解碼，這個非常適合在GPU進行相關的完成；第二，很多的視頻可能都會上傳到一些社交網絡上面，包括微信，或者是其他的平臺上面，從深度學習的訓練來看，現在基本上大部分都是在GPU上來完成的。從圖片推斷來看，你可以在CPU上去完成，但是未來隨著這些圖片上傳的量越來越大，它涉及到的計算需求越來越多，完全靠CPU完成可能會變得非常地困難。那涉及到視頻方面，它所需要的計算工作，相比圖片就要大了很多很多，所以未來這方面的，可能更多會是通過GPU來進行處理。比如原來，視頻還可以上傳，然后儲存在那里，可能進行離線的處理，一兩天的時間沒有問題。但是現在很多應用，比如說一些視頻廣播的應用，沒有給你儲存視頻然后進行一個離線處理的時間，比如只有兩分鐘的時間來對于這些視頻進行轉代碼，然后還要來進行相應的推斷，然后才能夠基于這些數據向你推薦好友，或者是向你發(fā)有針對性的一些廣告等等，這所帶來計算的需求會非常非常巨大。

綜上，Marc Hamilton認為，未來很多計算可能都是在GPU應用上完成的，單視頻方面對于GPU的需求，這個市場空間就會非常大。

Ashok Pandey補充說，從技術交流和溝通方面來說，亞太區(qū)其他地方的貢獻確實是很多的，從高性能計算，從純科學計算來看，日本的貢獻程度是比中國要大。但畢竟還是中國的市場更大，相關的投資和創(chuàng)新，中國的聲音非常非常大。比如說NVIDIA每年三月舉辦的GTC，原來中國面孔很少見，但去年中國這邊的參會人數突然非常迅速地增長，已經超過了日本人數，今年NVIDIA的目標是中國人超過德國人數。

Ashok Pandey認為，在互聯網這方面，特別是深度學習新技術這一方面，中國絕對不落后于國外，特別是商業(yè)模式的這種創(chuàng)新方面，中國可能還超前于國外。中國人的學習能力比較強，還有在商業(yè)模式方面創(chuàng)新能力也非常強，不僅僅是BAT，包括眾多這種新興企業(yè)，利用新的技術應該不落后于全世界其他國家。

加速方案的選擇上，Ashok Pandey認為，中國公司是非常有智慧的，會針對他們的工作負荷來選擇當時最具有競爭力的產品，類似于阿里一樣其他的公司，現在也積極的在測試一些新的產品。針對這種企業(yè)級企業(yè)，可靠性、可用性、可維護性是非常重要的，并且他們的應用場景都是集群場景，在集群這種場景里面，Tesla這種數據中心的產品是比較適合的。這和大學、科研機構在單機做一個科研和測試是不一樣的。

此外，他表示，NVIDIA在中國生態(tài)系統(tǒng)做得非常好，高性能計算OEM，包括浪潮、曙光、聯想、華為等，都是NVIDIA的非常密切的合作伙伴，并且他們有一個新產品，NVIDIA馬上會去做認證方面的工作。比如現在曙光已經推出了XMachine深度學習一體機。

GPU NVIDIA