2017年5月,19歲的世界圍棋第一人柯潔九段在和AlphaGo的圍棋終極人機大戰以0:3完敗,這也是人類頂尖高手與這臺機器之間的最后一次較量,同年10月 《Nature》雜志發表了超過它所有之前版本的AlphaGo Zero。這一成就向世界展示了建立系統來自學完成復雜任務的可能性,而其背后所代表的是運算能力,是計算機科學的分支領域--高性能計算(High Performance Computing),其實際應用不僅成為了國家綜合實力的體現,更給人們的日常生活帶來了改變,目前該技術已在航空航天、核試驗模擬、天氣預報、生命科學、高新制造(汽車、微電子)等領域取得了廣泛應用。
以生命科學領域舉例,隨著生命遺傳密碼(基因組)的不斷破解,人的生老病死這一復雜事情可以用數字化的方式具體呈現,以期實現疾病的精準預測、診斷和治療,讓人們遠離傳感染疾病、防控出生缺陷、腫瘤和心腦血管疾病,提升人均預期壽命,并大幅度降低社會衛生總負擔。
近二十年來,個人全基因組測序的成本以“超摩爾定律”的速度下降,而高性能計算在測序數據分析方向的應用也發生了翻天覆地的變化。目前全球主流的基因組測序數據分析工具是Broad Institute開發的免費開源工具集GATK(Genome Analysis Toolkit),該項生命科學領域公認的最佳工作流程完成一個人的全基因組(Whole Genome Sequencing,WGS)30X數據分析需要1800分鐘。深耕于基因組學20多年的華大基因在基因組高性能計算領域再獲突破性進展,于近日成功實現6分鐘完成30X WGS全流程的分析任務,相較于GATK標準計算時長提速300倍。
根據NIH公布的最新資料,隨著測序技術的發展,測序成本以超摩爾定律下
https://www.genome.gov/about-genomics/fact-sheets/DNA-Sequencing-Costs-Data
6分鐘完成30X WGS任務是由華大基因自主研發的LUSH工具集實現的,打破了該軟件在2020年1月創造的15分鐘極限速度。其中的黑科技正是采用了全新的底層架構設計,提供了基于中央處理器和圖形處理器相結合進行基因數據分析的高性能加速方案,在降低集群計算資源消耗、提高檢出速度的同時,實現了全程自動化、信息化,有記錄可回溯,可以更好地用于精準醫學的應用場景。
LUSH工具集加速的全新底層架構邏輯
LUSH工具集提供了一種“CPU+GPU”的高并行軟硬件解決方案,基于經典流程中的軟件模塊BWA、SAMTOOLS和GATK,利用GPU的通用運算技術,通過計算引擎和加速引擎的全新架構設計,實現算法優化和并行化處理,并結合華大自主研發的超高通量測序儀,完成堿基數據流的超高速分析,最終獲得準確的分析結果。
LUSH工具集加速流程示意圖
正是因為生命數字化進程需要嚴謹的科學精神,而其應用場景主要體現在精準醫療、健康管理等與人類健康有著息息相關的領域,因此不同于其他高性能計算領域,基因組數據分析對精度有極高的要求。而實際上高性能和準確性并不能完全兼得,數據范圍、分布和浮點精度、峰值性能和內存都會影響算法的選擇,尤其涉及到唯一最優解和近似解的算法可能大相徑庭。LUSH工具集正是通過在經典流程算法的基礎上利用了其全新設計的底層架構進一步減少了中間結果的讀寫,并利用CPU實現基因分析任務的智能分發,利用GPU數千計算核心實現百萬任務的極速并行處理,同時解決了經典流程計算密度較高、頻繁地存儲器訪問等問題,經過測試其標準品的準確性結果與經典流程一致,高達99.86%,使得其可以在計算結果的準確性與極速性上得以平衡。
更優越的性能、更低的成本和更高效的檢出是所有高性能計算應用領域的研發追求目標。對加速組件的持續研發源自對速度無止境的追求,正如手機芯片行業的發展是隨著移動端需求的旺盛,技術才得以不斷地迭代和進步。從基因組學基礎研究到臨床研究及應用,實現測序工具的自主可控的同時也需要實現數學方法上的自主研發,而不只是追求芯片的底層下潛開發。對后者是無止境的追求,而只有前者的完全可控才能實現從跟隨模仿到真正超越的可能,從核心算法的研發上助力我國精準醫療自主可控的發展進程。
推薦閱讀
AIC 2021的結束也是開始:王者榮耀國際版全球賽事體系鏈接全球玩家
12月19日,AIC 2021王者榮耀國際版國際邀請賽(簡稱:AIC 2021)圓滿落幕,最終由來自RPL賽區(泰國)的Buriram United Esports(BRU)戰隊最終捧回冠軍獎杯!總決賽跌宕起伏,BRU鏖戰>>>詳細閱讀
本文標題:震撼!華大LUSH基因序列比對加速工具集再次突破計算極限!
地址:http://www.xglongwei.com/a/05/313637.html