在本文中,我們將幫助您企業(yè)數(shù)據(jù)中心準備并應對由AI應用程序為企業(yè)本地部署環(huán)境和云基礎架構所帶來的限制。同時,我們還采訪了數(shù)據(jù)中心業(yè)界的同行們,邀請他們提供了相關的指導性建議,其中包括著重強調了企業(yè)數(shù)據(jù)中心與服務器供應商密切合作的重要性,這些服務器供應商可以為您的企業(yè)從早期階段盡快過渡到穩(wěn)步的高級生產階段,進而充分利用AI功能提供相應的指導。
企業(yè)數(shù)據(jù)中心究竟應該如何應對?
IDC認為,目前正在考慮實施人工智能計劃或正在從實驗階段轉向更為成熟的人工智能部署階段的企業(yè)用戶可能需要隨著時間的推移逐步推進其實施方案,以下,我們將與讀者朋友們討論幾種AI開發(fā)方法。
1、從小型到中型AI項目的逐步推進
對于小型AI項目計劃逐步向中型過渡的企業(yè)用戶而言,我們建議在內部開發(fā)解決方案。這種方法有很多優(yōu)點。通過協(xié)作實驗,企業(yè)的開發(fā)人員、業(yè)務部門、數(shù)據(jù)分析師或數(shù)據(jù)科學家和基礎架構團隊將能夠獲得重要的新技能,同時為業(yè)務創(chuàng)建量身定制的解決方案。數(shù)據(jù)分析師和數(shù)據(jù)科學家沒呢可以準備數(shù)據(jù)集和相關模型,開發(fā)人員則可以測試框架,而基礎架構團隊則可以評估要開發(fā)什么硬件以及用于生產的內容,并且業(yè)務部門將有機會設置解決方案的參數(shù)。但是,我們建議僅僅將這種方法用于獨特的AI項目。如果企業(yè)所需的解決方案可以作為商業(yè)軟件在市場上可以隨時獲得,那么商業(yè)化的軟件包將通過實現(xiàn)快速部署的業(yè)務優(yōu)勢遠遠超過企業(yè)內部開發(fā)所帶來的好處。
IDC建議,企業(yè)可以從小型和企業(yè)本地部署項目計劃開始著手。這種趨勢將是從一個與其他環(huán)境相隔離的專用服務器開始,但同時也需要意識到集成整合最終會變得重要。如果有AI培訓組件的話,那么該環(huán)境將需要能夠訪問用于培訓的數(shù)據(jù),并且硬件需要能夠進行強大的并行處理,理想情況下具有足夠數(shù)量的加速器,例如圖形處理單元(GPU)。環(huán)境可以由AI解決方案傾向于喜歡的集群,甚至包括具有多個節(jié)點的融合系統(tǒng)組成。但是,對于第一代AI基礎架構而言,規(guī)?;瘷M向擴展服務器中的硬分區(qū)也可以奏效。虛擬機或超融合系統(tǒng)則不太合適。如果數(shù)據(jù)對業(yè)務至關重要的話,那么承載數(shù)據(jù)的橫向擴展企業(yè)級服務器中的硬分區(qū)則可能會很有用,因為企業(yè)組織不需要將數(shù)據(jù)遷出其安全環(huán)境。請注意,只有在Linux上運行的AI開發(fā)才有大量的開源框架。
一旦企業(yè)用戶得到基礎架構團隊、開發(fā)團隊和數(shù)據(jù)科學家們對解決方案感到滿意之后,就可以運行該解決方案進行生產了,并能夠逐步體驗檢測到軟件和硬件的功能和局限性,屆時企業(yè)將能夠更好地確定下一步何去何從。這些后續(xù)步驟可能包括繼續(xù)構建內部部署的內部功能;實施升級或擴展基礎架構;添加云組件或聘請其他服務商,例如VAR經銷商或顧問等。
在這個反復試驗階段,企業(yè)的基礎設施團隊徹底調查新的基礎設施解決方案是至關重要的。如前所述,AI系統(tǒng)在單核和雙核服務器集群上運行良好,每核具有較高的性能和I/O參數(shù)以及GPU等加速器。該團隊不僅應該考慮從其傳統(tǒng)供應商處采購服務器產品,同時也應該考慮其他的服務器供應商,尤其是那些提供完整的AI硬件/軟件堆棧的服務器產品。其中一些供應商在部署AI系統(tǒng)的所有階段均能夠為企業(yè)用戶提供幫助,從硬件的選擇和優(yōu)化到軟件堆棧,直至后期的部署和咨詢服務。我們建議選擇企業(yè)客戶應該對那些已經展示出了對AI和深度學習的基礎架構要求有著深入了解的供應商。
確保您企業(yè)的服務器供應商可以在第一個實驗階段提供相關的建議,即使該階段是在企業(yè)現(xiàn)有的硬件設備上部署實施的,這些建議也可以指導企業(yè)組織進行內部的部署或混合內部云擴展。理想情況下,服務器供應商可以通過幾個乃至所有的小型到大型的場景指導企業(yè)用戶的部署工作。換句話說,這些服務器供應商擔任企業(yè)客戶小型項目計劃的顧問,同時也擔任其下一階段的更大的人工智能實施計劃的顧問。
2、更大規(guī)模的AI項目計劃的實施
企業(yè)實施更大的AI項目計劃將得益于外部的支持。開發(fā)全面的人工智能解決方案的時間、成本和復雜性旨在為企業(yè)組織帶來關鍵業(yè)務的創(chuàng)新,但除了擁有相當足夠的資源的大型企業(yè)組織之外,一般的企業(yè)則可能不太適合采用內部試錯法。第三方人工智能解決方案提供商可以像增值經銷商或系統(tǒng)集成商那樣,幫助企業(yè)客戶快速實施解決方案,但他們的靈活性會大大降低,并且并不適合獨特的業(yè)務需求。非常大型的項目計劃則可以從咨詢合作伙伴中受益。企業(yè)客戶咨詢其合作伙伴的成本往往很昂貴,并且可能會對這些合作伙伴產生長期的依賴關系,其初始部署時間通常很長。另一方面,最終的解決方案將完全根據(jù)企業(yè)組織的需求量身定制,并且如果執(zhí)行得當,則可與數(shù)據(jù)中心實現(xiàn)完美的集成整合。
對于大型的項目計劃而言,與具有AI專業(yè)知識以及擁有涵蓋了整個硬件/軟件堆棧的一系列AI產品的服務器供應商合作也能夠為企業(yè)客戶帶來明顯的優(yōu)勢。服務器供應商通常比第三方咨詢合作伙伴的咨詢成本便宜,并且比其他解決方案提供商對其自身硬件的優(yōu)化和擴展有更多的了解。但請務必確保供應商具有擴展AI應用程序基礎架構和深度學習的能力,因為規(guī)?;s放加速的計算節(jié)點并不像僅僅使用CPU來擴展計算節(jié)點那樣簡單。
我們建議,企業(yè)的業(yè)務部門、開發(fā)團隊和基礎架構團隊密切參與這一過程,盡可能確保其AI解決方案是定制化的,并通過培訓開發(fā)相關技能。確保企業(yè)的該項目最終不會以只有服務器供應商或解決方案提供商才理解的“黑盒”解決方案的方式結束,這種解決方案無法實現(xiàn)很好的擴展,也無法與數(shù)據(jù)中心集成整合,并且會影響性??能或在數(shù)據(jù)量開始增加時帶來局限性。換句話說,這些方法都不會讓企業(yè)基礎架構團隊的任務變得更加簡單。AI服務器供應商、解決方案提供商和顧問將提出硬件方面的建議,并對與企業(yè)內部開發(fā)相同的參數(shù)進行批判性的評估,包括:加速性能、I/O、可管理性和可擴展性。
請注意,就方法和部署而言,可以將上述這些場景中的幾個組合起來。例如,企業(yè)內部構建的解決方案可以與云中的SaaS解決方案相結合以實現(xiàn)混合解決方案,或者企業(yè)內部構建的解決方案可以跟隨VAR經銷商更大的方案的實施而實施。最后,IDC發(fā)現(xiàn),大多數(shù)企業(yè)組織對于其AI項目計劃并沒有明確估算其基礎架構或軟件的成本。企業(yè)需要為AI項目制定指標,包括軟件、基礎設施和人工成本方面的目標。他們還應計算投資回報潛力(通過提高生產力,降低成本或增加收入等方面的計算),并確保他們在項目開始時收集有關這些指標的數(shù)據(jù)。
3、選擇企業(yè)內部部署還是云服務?
對于一些較大的AI項目計劃,可能存在SaaS解決方案。但是與任何基于云計算的軟件解決方案一樣,可定制性將受到限制,可擴展性將取決于提供商的基礎設施,性能也會如此。而且,當數(shù)據(jù)量或交易數(shù)量快速增長時,成本可能會變得不利。對于關鍵業(yè)務數(shù)據(jù)、敏感數(shù)據(jù)或需要遵守法規(guī)要求的數(shù)據(jù)而言,需要對SaaS解決方案的安全性進行評估。
IDC發(fā)現(xiàn),在部署了人工智能應用出現(xiàn)加速基礎設施的企業(yè)中,有65%的企業(yè)在其內部部署了這些解決方案:22%的企業(yè)選擇了僅僅只在企業(yè)內部部署;而43%企業(yè)選擇了內部部署和云部署的混合模式。大多數(shù)企業(yè)表示他們已經發(fā)現(xiàn)到目前為止云計算體驗是令人滿意的,并將把AI工作負載轉移到云服務。然而,這方面的遷移并不會影響未來24個月內所有可能部署中認知負載的整體分布;換句話說,企業(yè)內部部署的比例將仍然保持不變。某些AI使用案例并不適用于企業(yè)內部部署或云部署環(huán)境(但也存在一些例外情況)?;跀?shù)據(jù)安全問題的考慮,某些人工智能使用案例(例如醫(yī)療診斷和治療)采取企業(yè)內部部署往往比云服務更為流行。然而,全渠道運營的商品化在云中的普及率稍高。盡管如此,企業(yè)內部部署、云計算,當然還有混合策略各自均有其明確的角色作用。后者很可能成為最有利的部署方法。
4、加速器
在本文中,我們曾多次提及加速器作為克服AI系統(tǒng)基礎架構性能瓶頸局限性的重要方法,這對于采用深度學習算法的AI系統(tǒng)尤其如此,需要大量的計算能力來訓練。在某些情況下,使用加速器對深度學習算法進行訓練可以將迭代時間從幾天縮短到幾小時。
根據(jù)IDC的定義,加速計算是通過將部分處理卸載到鄰近的硅子系統(tǒng)——如圖形處理單元和現(xiàn)場可編程門陣列(FPGA)上來加速應用程序和工作負載的能力。隨著企業(yè)尋求解決方案來克服CPU處理工作負載(如AI應用程序)的局限性,加速計算正在進一步獲得企業(yè)用戶的青睞。
GPU對于企業(yè)特別具有吸引力,因為它們可以通過現(xiàn)成的方式獲得,并且可以使用標準庫,這些庫可以很容易地集成到應用程序中。然而,其他可提供更高性能功耗比率的技術,如FPGA、多核處理器和專用集成電路(ASIC)也開始受到關注:
- 一款GPU執(zhí)行基于神經網(wǎng)絡層的矢量和矩陣計算。GPU以并行的方式實現(xiàn),提供了訓練速度的大幅改進和更高的能效。
- 多核微處理器針對并行或矢量化進行了優(yōu)化,無需使用外部加速器。多核微處理器擁有比典型多核CPU更多的內核,并且是旨在最大化處理器、高速緩存和內存之間的數(shù)據(jù)傳輸速率的體系架構的一部分。其還執(zhí)行CPU的傳統(tǒng)功能。
- 一款協(xié)處理器是用于加速并行工作負載的PCIe卡。它集成了多核處理器,并包含專用的高速緩存、內存和操作系統(tǒng)內核,但需要CPU進行引導。
- FPGA是一種集成電路,設計成由客戶在制造后使用硬件描述或高級語言進行配置。FPGA由一系列可編程邏輯塊、互連和I/O塊組成。它們也可以重新配置。
- ASIC是專用集成電路,不能在制造后重新配置。
- 互連是GPU、FPGA或ASIC與CPU之間的數(shù)據(jù)連接。PCIe互連的最大單向帶寬約為16GBps,而NVIDIA的NVLink 2.0的最大單向帶寬則為150GBps。
大多數(shù)小型企業(yè)選擇從服務器供應商處采購加速器作為服務器的一部分。這是一種方便的方法,因為大多數(shù)主要的服務器供應商都擁有加速服務器產品。較大的公司也會選擇VAR經銷商或系統(tǒng)集成商或直接從加速器供應商處采購。這種方法為他們提供了更大的靈活性,因為增值經銷商和系統(tǒng)集成商將能夠提供更加定制化的解決方案,同時直接從供應商處采購可以提供安裝加速器的更好的靈活性。
在將加速器作為服務器的一部分進行采購時,會有一定的價格溢價。迄今為止,還沒有幾項基準來確定加速器作為既定服務器的一部分能夠提供多少額外的性能,但是根據(jù)IDC的研究表明,采購此類系統(tǒng)的企業(yè)平均發(fā)現(xiàn),在既定的總體性能增長的情況下,一定的價格溢價是可以接受的(請參閱下表3)。
加速固然非常有效,但其并不總是解決企業(yè)數(shù)據(jù)中心服務器基礎架構瓶頸局限性的最終解決方案。這在很大程度上取決于服務器的核心性能、企業(yè)所選擇的加速的類型、互連的類型以及諸如軟件和數(shù)據(jù)等各種其他因素。因此,企業(yè)客戶不僅需要考慮采用哪些加速器和共計擁有多少臺服務器,還要考慮企業(yè)已經安裝了哪種服務器,包括每個內核的性能和I/O帶寬。選擇一款平衡系統(tǒng)是非常關鍵的,特別是對于處于嘗試各種模型的人工智能的實驗階段的企業(yè)客戶來說,因為每種模型都會以不同的方式為系統(tǒng)帶來壓力。
表3、既定性能增加的可接受價格溢價范圍
資料來源:《認知服務器基礎架構調查》2017年6月,IDC