《企業(yè)網(wǎng)D1Net》 6月4日北京
當(dāng)我們走進(jìn)影院欣賞美麗悲壯的3D版《泰坦尼克號》、歡樂幽默的《非常小特務(wù)4》被逼真的畫面所震撼時(shí);當(dāng)我們收到衛(wèi)星傳回的精確數(shù)據(jù)及時(shí)采取措施,減少自然災(zāi)害帶來的損失感到震驚時(shí);當(dāng)我們仰望天空、試圖探尋宇宙奧秘,看到一張張神奇星空照片時(shí);背后都是高性能計(jì)算(HPC)在默默支持。
高性能計(jì)算(HPC)正給我們的生活帶來前所未有的改變——它使我們的工作更具效率:能在極短的時(shí)間計(jì)算出精準(zhǔn)的數(shù)據(jù)、做出可視化的圖像;使我們的娛樂更加豐富多彩:3D影片、游戲更加妙趣橫生;能讓我們更加了解自己:DNA測序、醫(yī)療成像;挽救更多的生命:天氣監(jiān)測、快速制成能預(yù)防、治療各種疾病的藥物;探索我們地球以外令人振奮的新奇事物。高性能計(jì)算正帶領(lǐng)人類從“信息時(shí)代”走向“知識時(shí)代”。
越來越多的企業(yè)在利用高性能計(jì)算對海量信息進(jìn)行運(yùn)算、分析解決我們遇到的難題、開發(fā)出更奇特的產(chǎn)品。高性能計(jì)算給各行各業(yè)帶來了發(fā)展的新機(jī)遇,也為高性能計(jì)算產(chǎn)品提出了更高要求:
安全可靠
高性能計(jì)算的計(jì)算規(guī)模達(dá)到了百萬億次(TFLOPS)甚至千萬億次(PFLOPS)的數(shù)量級別,采用的處理器數(shù)量也達(dá)到了上萬個(gè),這給系統(tǒng)帶來了加大的復(fù)雜度,但他們所面臨的任務(wù)必須是上時(shí)間運(yùn)行的關(guān)鍵運(yùn)算,一旦發(fā)生故障將造成巨大經(jīng)濟(jì)損失和時(shí)間、能源的浪費(fèi)。在實(shí)現(xiàn)高性能的同時(shí)必須確保系統(tǒng)的高可靠性。
這需要系統(tǒng)能通過避錯(cuò)和容錯(cuò)技術(shù)提高系統(tǒng)的可靠性。避錯(cuò)是指通過采用高可靠等級的硬件元器件防止錯(cuò)誤產(chǎn)生。容錯(cuò)是指在系統(tǒng)出現(xiàn)錯(cuò)的的情況下還能繼續(xù)正常工作。容錯(cuò)及粟通常采用靜態(tài)容錯(cuò)和動態(tài)容錯(cuò)兩種機(jī)制。靜態(tài)容錯(cuò)通過通過硬件冗余的錯(cuò)失使故障響應(yīng)在輸出前被隔離或矯正。動態(tài)冗余采用標(biāo)準(zhǔn)模塊配置,但一旦檢測出故障體統(tǒng)能進(jìn)行重組或恢復(fù),使系統(tǒng)正常運(yùn)行。在線替換的能力也必不可少,需要可支持在線替換的不見有運(yùn)算單元板、磁盤、風(fēng)扇、電源、I/O卡等。
開放平臺
在高性能計(jì)算領(lǐng)域,硬件、軟件企業(yè)眾多。硬件就有呈三足鼎立之勢——英特爾、AMD和nVIDIA,這是軟件也面臨了三條路的選擇。在這群雄并起的的勢態(tài)下業(yè)內(nèi)卻一直看好了異構(gòu)眾核模式——CPU+GPU。Intel新一代產(chǎn)品在高性能計(jì)算方面做出了很大努力,英特爾公司將于6月20日在戴爾舉辦的高性能計(jì)算行業(yè)應(yīng)用實(shí)踐交流會上將詳細(xì)講解英特爾在這一領(lǐng)域的重大改變。
CPU的優(yōu)勢在于邏輯運(yùn)算,而GPU的優(yōu)勢在于浮點(diǎn)運(yùn)算,也就是串行算,現(xiàn)在的科學(xué)計(jì)算的大多數(shù)模型都?xì)w結(jié)為求矩陣特征值與線性方程組求解問題。很好地利用GPU的并行運(yùn)算特性將大大提高計(jì)算效率。在20日的高性能計(jì)算行業(yè)應(yīng)用實(shí)踐交流會上Nvidia也將向您詳細(xì)闡述GPU在高性能計(jì)算的應(yīng)用趨勢。然而異構(gòu)眾核模式也問題重重:顯式并行工具與隱式并行工具各有優(yōu)劣,nVIDIA主推的CUDA 以及AMD 的Open CL都屬顯式并行工具,但需程序員手動處理并行性,分配內(nèi)存和協(xié)調(diào)線程間的同步問題,這與集群上的MPI性質(zhì)相同。難學(xué)難用的顯式并行MPI僅在HPC社區(qū)內(nèi)流行。隱式并行工具則提供了相應(yīng)的工具和編譯器,能部分解決這些問題,但處理實(shí)際復(fù)雜算例的能力還有待進(jìn)一步完善和提高。
可以預(yù)見的是,不論從智能手機(jī)還是超級計(jì)算機(jī),都將采用異構(gòu)眾核計(jì)算的模式,如何能夠“軟硬通吃”將成為在高性能計(jì)算領(lǐng)域成功的關(guān)鍵。
可擴(kuò)展性
HPC是個(gè)系統(tǒng)工程,不僅需要處理器,存儲技術(shù)還需要有網(wǎng)絡(luò)的協(xié)同處理,三大方面的可擴(kuò)展性都成為制約整體性能的瓶頸所在。單機(jī)的強(qiáng)大無疑能使整體的系統(tǒng)更加強(qiáng)大,擁有在各環(huán)節(jié)的均衡擴(kuò)展才能使整體系統(tǒng)不論在性能和整體擁有成本上取得優(yōu)勢。使用標(biāo)準(zhǔn)化、低成本的部件象搭積木一樣構(gòu)建高性能計(jì)算機(jī)將成為HPC集群的發(fā)展方向。
高性價(jià)比
高性價(jià)比是在當(dāng)前經(jīng)濟(jì)形勢下個(gè)行業(yè)用戶關(guān)注的焦點(diǎn)。應(yīng)用于高性能計(jì)算的刀片服務(wù)器擁有的計(jì)算密度是其主要優(yōu)勢。它對機(jī)房的空間要求更低,并且有效降低了系統(tǒng)功耗,對系統(tǒng)空調(diào)等散熱系統(tǒng)的要求也相對降低。刀片柜中的電源將由多個(gè)刀片共享,所以會使用高效率電源,減小了系統(tǒng)功耗,同時(shí)產(chǎn)生的熱量減少,減少了冷卻系統(tǒng)的耗電量。
HPC選型
隨著高性能計(jì)算在各行各業(yè)的廣泛應(yīng)用,選購HPC產(chǎn)品逐漸被企業(yè)CIO/CTO提上議程,然而除了要關(guān)注HPC高可靠性、開放平臺、高擴(kuò)展性、高性價(jià)比以外,企業(yè)的真正應(yīng)用才是HPC產(chǎn)品選型的主要指導(dǎo)方向。雖然大家通行的衡量指標(biāo)是比較Linpack值,但未必高Linpack值的產(chǎn)品性能就適應(yīng)所有應(yīng)用需求。HPC是個(gè)系統(tǒng),它包括的浮點(diǎn)運(yùn)算、擴(kuò)展性、內(nèi)部存取等各個(gè)環(huán)節(jié),而Linpack作為HPC基準(zhǔn)測試程序之一的測試是無法真正反映HPC系統(tǒng)在真實(shí)運(yùn)行應(yīng)用時(shí)的性能。對于高時(shí)鐘頻率但內(nèi)部存取性能平平的服務(wù)器HPC系統(tǒng)在石油油藏模擬、氣象分析等應(yīng)用上就不會的到令人滿意的效果。石油石化行業(yè)高性能計(jì)算解決方案及成功案例和生命科學(xué)、氣象行業(yè)的高性能產(chǎn)品采購差異性將在戴爾的行業(yè)應(yīng)用實(shí)踐交流會上向您具體展示。
為解答廣大企業(yè)在選購高性能計(jì)算產(chǎn)品時(shí)可能遇到的一些問題,戴爾將于2012 年6 月20日,7月11日分別在北京、上海兩地為產(chǎn)、學(xué)、研用戶準(zhǔn)備了高性能計(jì)算的專場說明會。北京會議詳情請登錄:
http://app.focussend.com/focussend/ViewSentMail.htm?s=615713-11