基因測序性能提升5倍,華為云FPGA基因加速方案彰顯技術(shù)創(chuàng)新能力

責(zé)任編輯:xfuesx

2018-07-06 15:58:30

摘自:中國商業(yè)觀察網(wǎng)

峰科采用GATK標(biāo)準(zhǔn)分析流程,精準(zhǔn)性與GATK標(biāo)準(zhǔn)流程完全吻合,精度可達(dá)99 95%以上。圖3 華為云峰科基因加速流程和GATK最佳使用流程對比  基于華為云FPGA加速服務(wù),使用FPGA優(yōu)化加速GATK流程,基因組分析流程可以實(shí)現(xiàn)3~5倍速度提升和99 95%以上的準(zhǔn)確度。


  近期,華為云攜手峰科計(jì)算(以下簡稱“峰科”)發(fā)布基于FPGA的基因加速云解決方案,該方案采用GATK(The Genome Analysis Toolkit)標(biāo)準(zhǔn)分析流程,將全基因組測序(WGS)性能提升5倍,比傳統(tǒng)模式提升3~5倍,同時(shí)測序精度可達(dá)99.95%以上,在大幅縮短測序時(shí)間的同時(shí)實(shí)現(xiàn)TCO大幅降低。

基因測序數(shù)據(jù)分析加速面臨的挑戰(zhàn)

首先,基因測序分析流程BWT+GATK當(dāng)前被業(yè)界廣泛采納,但采用此流程的傳統(tǒng)測序方法需要消耗高額算力及存儲資源,且耗時(shí)較長。

其次,針對基因測序中高算力需求的smith-waterman,pair-hmm等算法處理,其具有計(jì)算并行性,不連續(xù),非規(guī)則的存儲訪問,低bit操作等特性,計(jì)算依賴不規(guī)則區(qū)域的操作會對CPU消耗很大,性能難以提升。

華為云FPGA基因加速解決方案的三大優(yōu)勢

為了更好的解決基因測序行業(yè)面臨的基因組分析標(biāo)準(zhǔn)流程不經(jīng)濟(jì)高效,以及跨不同云和硬件(CPUs,F(xiàn)PGAs)加速實(shí)現(xiàn)的雙重挑戰(zhàn)。華為云和峰科計(jì)算強(qiáng)強(qiáng)聯(lián)合,合作推出符合行業(yè)標(biāo)準(zhǔn)的GATK加速流程,通過對基因測序數(shù)據(jù)分析流程進(jìn)行軟、硬件聯(lián)合優(yōu)化實(shí)現(xiàn)端到端加速。華為云FPGA基因加速方案具備如下優(yōu)勢:首先,華為云提供業(yè)界領(lǐng)先的FPGA加速云服務(wù)平臺,采用業(yè)界領(lǐng)先的Xilinx 16nm Virtex UltraScale+ VU9P FPGA,并針對基因場景推出32核CPU224GB內(nèi)存1 VU9P FPGA和64核CPU448GB內(nèi)存2 VU9P FPGA規(guī)格的實(shí)例,實(shí)現(xiàn)了GATK 軟件處理流程和FPGA加速流程的完美結(jié)合,將加速效率提升3~5倍。

其次,峰科采用GATK標(biāo)準(zhǔn)分析流程,精準(zhǔn)性與GATK標(biāo)準(zhǔn)流程完全吻合,精度可達(dá)99.95%以上。

第三,不修改GATK標(biāo)準(zhǔn)流程,可訪問讀取從原始測序數(shù)據(jù)到生成vcf文件整個(gè)過程中的中間數(shù)據(jù),便于科研用戶使用比對。

1. 華為云FPGA基因加速解決方案解析

華為云FPGA基因加速解決方案集成峰科的加速IP,為用戶提供一種易于使用,經(jīng)濟(jì)實(shí)惠的基于FPGA的基因組分析流程加速服務(wù),在該方案中,華為云配備了32核CPU,單個(gè)VU9P FPGA的實(shí)例。華為云FPGA基因加速解決方案使用GATK最佳方案對種系突變和體細(xì)胞突變進(jìn)行變異檢測,將計(jì)算密集型算法如Smith-Waterman、PairHMM等確定為加速對象。每種算法都經(jīng)過FPGA內(nèi)核優(yōu)化,并且實(shí)現(xiàn)CPU-FPGA協(xié)同執(zhí)行和資源分配。如圖2所示,用戶通過分析應(yīng)用程序,把每個(gè)流程的數(shù)據(jù)傳給華為云峰科加速平臺,平臺里的Kestrel運(yùn)行時(shí)管理工具來管理CPU-FPGA協(xié)同執(zhí)行和資源分配。利用多線程,I / O優(yōu)化和擴(kuò)展使用FPGA加速器,華為云FPGA基因加速服務(wù)的基因組學(xué)分析流程在保證精準(zhǔn)度情況下提供顯著的加速。

圖2 華為云FPGA基因加速方案結(jié)構(gòu)圖

與GATK 最佳使用流程相對稱,典型的基因測序數(shù)據(jù)分析流程始于原始FASTQ序列兩端讀長(paired-end reads),進(jìn)一步獲取一組經(jīng)過濾的變體,對其進(jìn)行標(biāo)記以供進(jìn)一步分析。圖3描述了華為云基因加速服務(wù)種系變異調(diào)用流水線的具體流程,中間面板指示開始的通常工作流程,上下分別顯示華為云FPGA基因加速方案中的峰科加速流程和GATK最佳使用流程命令實(shí)現(xiàn)方式的工作流程。

圖3 華為云峰科基因加速流程和GATK最佳使用流程對比

基于華為云FPGA加速服務(wù),使用FPGA優(yōu)化加速GATK流程,基因組分析流程可以實(shí)現(xiàn)3~5倍速度提升和99.95%以上的準(zhǔn)確度。華為云FPGA基因加速解決方案最快基因組序列分析標(biāo)準(zhǔn)流程可在一天內(nèi)完成5個(gè)全基因組或24個(gè)整體外顯子組分析。

Performance comparison for GATK 3.8 WGS from Alignment to Variant Calling using Hoplotypecaller

Cloud based comparisonTotal(Hrs.)Speedup

WGS(30X)Falcon on Huawei7.464.84x

Original 36.11x

注:測試數(shù)據(jù)使用的是30X的WGS樣本,堿基數(shù)量103G華為云基因加速服務(wù)“0”元體驗(yàn)

為了能讓更多的用戶體驗(yàn)華為云FPGA加速云服務(wù)器,針對基因加速場景,華為云聯(lián)合峰科(Falcon)推出“基因加速服務(wù)0元體驗(yàn)套餐”,套餐規(guī)格為32核CPU224GB內(nèi)存500GB數(shù)據(jù)盤5M帶寬,歡迎各企業(yè)登錄華為云官網(wǎng)使用。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號