一直以來,超 級計算機(jī)因其無可匹敵的運(yùn)算實力而在科研界享有“巨擘”之稱,大眾耳熟能詳?shù)哪^于那些榮登全球超算Top500推薦榜的翹楚品牌,如Frontier和神威·太湖之光等,它們展現(xiàn)出了卓越的通用高性能計算能力。然而,在生物計算這一細(xì)分領(lǐng)域中,即便是這些巨頭也會顯得有些“力不從心”,難以全面應(yīng)對諸如大規(guī)模分子動力學(xué)模擬、蛋白質(zhì)三維結(jié)構(gòu)預(yù)測等相當(dāng)挑戰(zhàn)性的任務(wù)。這時,就不得不提在生物計算領(lǐng)域占據(jù)顯著地位的專用超 級計算機(jī)安騰(Anton)了。
安騰超 級計算機(jī) ? 圖片來源:D.E. Shaw Research
安騰超 級計算機(jī)是由美國D. E. Shaw研究所于2007年首 次發(fā)布,專門用于對生命科學(xué)研究和生物制藥研發(fā)領(lǐng)域至關(guān)重要的算法——分子動力學(xué)模擬算法的加速。在計算分子動力學(xué)模擬(Molecular Dynamics, 簡稱MD)問題時,超算安騰的計算效率比全球最 強(qiáng)的超算Frontier還要高上數(shù)十倍。
為什么安騰超 級計算機(jī)能比美國Frontier算得還要快?
秘訣就在于安騰超 級計算機(jī)的“專項定制”屬性。安騰超 級計算機(jī)由大量的特定應(yīng)用集成電路(ASIC)組成,通過一個專門的高速三維環(huán)形網(wǎng)絡(luò)相互連接 。不同于通用超算的一刀切設(shè)計,超算安騰的架構(gòu)專為細(xì)粒度事件驅(qū)動而設(shè)計運(yùn)算,通過增加計算與通信的重疊來提高性能。
由于安騰超 級計算機(jī)主要專注于分子動力學(xué)模擬加速,即其所應(yīng)對的主要任務(wù)屬于通訊密集型的并行計算范疇。在此背景下,超算安騰在芯片設(shè)計、通信網(wǎng)絡(luò)這兩個方面進(jìn)行了特殊設(shè)計,從而有效提升此類任務(wù)的計算效率。
512個深度定制ASIC芯片?提供強(qiáng)大算力支持
首先,在硬件層面,由于CPU、GPU等通用的算力芯片無法滿足特定問題對算力性能的要求,因此,專用超 級計算機(jī)常常選擇搭載ASIC芯片(即專用集成電路),以針對性地提供解決特定問題所需的強(qiáng)大算力支持。
安騰超 級計算機(jī)的核心優(yōu)勢就在于其使用的512個MD專用ASIC芯片。這些芯片經(jīng)過深度定制,具有針對性強(qiáng)的指令集架構(gòu)(ISA),能夠比較準(zhǔn)確執(zhí)行分子動力學(xué)模擬(MD)中最耗時和最頻繁的計算任務(wù),如分子間的長程和短程相互作用力的計算,為這些關(guān)鍵計算步驟提供硬件算法層面的性能優(yōu)化,例如快速傅里葉變換(FFT)等算法。
圖片來源:D.E. Shaw Research
同時,為了減少計算延遲,安騰超 級計算機(jī)還設(shè)計高度專業(yè)化的專用硬件數(shù)據(jù)路徑和控制邏輯,用于評估范圍受限的相互作用,并執(zhí)行電荷擴(kuò)散與力插值。除了在芯片上密集整合高度定制化的計算邏輯之外,這些流水線還針對每個操作都采用了定制化精度。
“量體裁衣”般的并行計算硬件設(shè)計??只為提升計算性能
GPU、通用超算等通用的計算架構(gòu)更多關(guān)注的是訪存密集型任務(wù)的優(yōu)化,而超算安騰則是針對通訊密集型的并行計算問題進(jìn)行了特化優(yōu)化。因此超算安騰在處理高度依賴大量通訊密集型并行計算的分子動力學(xué)計算任務(wù)時,自然就會比傳統(tǒng)的通用超 級計算機(jī)架構(gòu)多出許多天然的優(yōu)勢。
具體來說,超算安騰上運(yùn)算的分子動力學(xué)算法的主要應(yīng)用領(lǐng)域之一是對蛋白質(zhì)進(jìn)行的仿真模擬。這類仿真模擬任務(wù)需要計算機(jī)記錄當(dāng)前每個原子的位置、運(yùn)動狀態(tài)等,之后利用分子動力學(xué)模擬計算這些粒子之間相互影響的運(yùn)算結(jié)果。在這樣的情況下,每個節(jié)點需要承擔(dān)的運(yùn)算并不復(fù)雜,所以并不需要每個計算單元具有極其高強(qiáng)的計算能力;也不需要大規(guī)模數(shù)據(jù)的輸入輸出存,所以也不是訪存密集型任務(wù)。因此在設(shè)計上,安騰超 級計算機(jī)取消了其它并行計算硬件中十分常見的緩存,也就是不需要很大的存儲空間。
例如,對于一個包含25,000個粒子的MD模擬,其整體架構(gòu)狀態(tài)只需要1.6兆字節(jié),放到一個由512個節(jié)點構(gòu)成的系統(tǒng)中,每個節(jié)點僅占用3.2千字節(jié)。鑒于此特性,超算安騰選擇在ASIC上僅僅配備SRAM和小型L1緩存,并確保在常規(guī)操作條件下,所有的代碼和數(shù)據(jù)都能夠妥帖地裝載在芯片之上,沒有把寶貴的硅片面積用于構(gòu)建大型緩存或是復(fù)雜的內(nèi)存層級結(jié)構(gòu),而是將這些資源重點投入到通信和計算性能的提升上。
此外,分子動力學(xué)模擬中,最為消耗計算資源的是分子間的長程相互作用力的計算,如靜電相互作用等。據(jù)統(tǒng)計,在通用處理器上運(yùn)行的標(biāo)準(zhǔn)MD模擬中,計算靜電和范德華力所耗費(fèi)的時間占到了總體計算時間的約90%。由于這些力的計算都是基于成熟的物理原理和公式得出的,不太可能隨力場模型進(jìn)化而發(fā)生巨大改變,基本因此非常適合硬件加速。但是,要想實現(xiàn)MD模擬的顯著提速,光是加速這些“核心循環(huán)”還不夠,還需要對其他相關(guān)的計算任務(wù)進(jìn)行同步加速。依據(jù)阿姆達(dá)爾定律,即使把前述占用90%計算時間的任務(wù)的計算效率大幅優(yōu)化,如果其余10%的計算任務(wù)還是維持現(xiàn)狀的話,整個系統(tǒng)的最 大加速比也只能達(dá)到10倍左右的上限。因此,超算安騰特意劃撥了相當(dāng)一部分硅片面積用于加速那些諸如鍵力計算、約束條件計算、速度和位置更新等其他關(guān)鍵任務(wù)。
服務(wù)器擺放與網(wǎng)絡(luò)結(jié)構(gòu)的特殊設(shè)計?有效提升通訊效率
在通信層面,由于分子動力學(xué)模擬是一種需要大規(guī)模并行化的計算密集型方法,因此快速并行分子動力學(xué)模擬的實現(xiàn)就需要節(jié)點間通信的高帶寬和低延遲。為提高通訊效率,安騰超 級計算機(jī)也做了一些特別的設(shè)計。
例如,整個超算安騰的服務(wù)器都被緊密地擺放在一個正方體的機(jī)箱中,這樣的好處在于節(jié)點之間依靠網(wǎng)絡(luò)互聯(lián),緊密排列使得網(wǎng)絡(luò)的傳輸距離大大降低,可靠性和速度大大提升,所以速度有了很大的提升。
又比如,超算安騰設(shè)計了獨特的內(nèi)存子系統(tǒng),專門用于積累每個粒子所受的力,這樣可以減少計算過程中必要的數(shù)據(jù)交換。為了進(jìn)一步提高計算效率,安騰超 級計算機(jī)采用了低延遲、高帶寬的網(wǎng)絡(luò)結(jié)構(gòu),不僅在單個ASIC芯片內(nèi)部實現(xiàn)了快速通信,還在不同ASIC芯片之間也建立起了有效的互聯(lián)網(wǎng)絡(luò)。這個網(wǎng)絡(luò)特別支持常見的MD通信模式,比如多播和稀疏數(shù)據(jù)結(jié)構(gòu)的壓縮傳輸,同時也支持協(xié)調(diào)式的“推送”式通信方式,即生產(chǎn)者主動將結(jié)果發(fā)送給消費(fèi)者,無需消費(fèi)者預(yù)先請求數(shù)據(jù)。此外,系統(tǒng)中還配備了一系列獨立的直接內(nèi)存訪問(DMA)引擎,用于卸載計算單元的通信任務(wù),使得通信和計算過程能更緊密地重疊執(zhí)行,從而最 大程度減少等待時間。
ASIC芯片通過高速通道直接連接,形成三維環(huán)形拓?fù)浣Y(jié)構(gòu)
圖片來源:D.E. Shaw Research
通過以上分析可見,安騰超 級計算機(jī)通過一系列精密的硬件和軟件協(xié)同設(shè)計,聚焦于加速分子動力學(xué)模擬的關(guān)鍵環(huán)節(jié),使得其在處理大規(guī)模生物分子系統(tǒng)長達(dá)百微秒級別的經(jīng)典分子動力學(xué)模擬時表現(xiàn)出比較罕見的有效性。
安騰超 級計算機(jī)的技術(shù)路線無疑為我國超算領(lǐng)域、尤其是專用超算領(lǐng)域的技術(shù)研發(fā)提供了路線借鑒參考。在生物制藥、生命科學(xué)、新能源新材料等前沿科技火熱發(fā)展的重點垂直領(lǐng)域,我們應(yīng)當(dāng)加強(qiáng)全棧式的軟硬件協(xié)同創(chuàng)新,挖掘在特定計算難題上的重大產(chǎn)業(yè)和創(chuàng)新機(jī)會,不斷提升在全球超算競賽中的競爭力與影響力。
(推廣)