智慧無失真HPC網絡賦能北京大學無與倫比的性能
深圳, 2023年10月17日 — “我真的需要跑這個任務趕上截止日期。資源排隊時間太長了。我該怎麼辦?”
“我的實驗截止日期是下個星期,但我剛發現一些數據不正確。重新跑模擬需要超過100小時。速度能快一點嗎?”
“這個實驗對我很重要。截止日期快到了。我能先跑我的任務嗎?”
科學研究人員困擾的不僅是分子運動、脫氧核糖核酸(DNA)成分、風洞測試和複雜的建模與模擬實驗,還有如何管理有限的計算資源和協調長時間的排隊。
為了提高HPC效率和降低科學研究成本,北京大學公共HPC平台組織了供應商評估,選擇一個能滿足期望的HPC網絡。由於其無與倫比的計算性能,華為的智能無失真HPC網絡排名第一。
成就卓著的計算中心
北京大學在1963年購買了第一台電腦,在中國高校中率先建立了計算中心。2001年,它匯集各領域專家共同創建了計算科學與工程中心。該中心定位為一個多學科研究平台,為學校教學和科研活動提供服務。2018年,公共HPC平台啟動,分階段運行三個集群——維明一號、維明教學一號和維明生物科學一號。公共平台上的總核心數達到31,732個,峰值計算能力3.65 PFLOPS。該平台為數學、力學、物理、化學、生物學和地質學等多個學科提供HPC環境。
科學研究堅實基礎
HPC平台作為大學科學研究的重要支撐。截至2023年5月12日,北京大學HPC平台用戶分布在96個學院,有5070名用戶。該平台支持545個研究項目,總資金達31.36億元人民幣,發表高質量論文1400餘篇。它還支持2020年獲得戈登貝爾獎的項目。該獲獎項目通過機器學習,將分子動力學模擬限制提高到1億個原子,這在計算科學領域被視為迄今為止最重要的突破之一。
計算需求增長迫切需要重建網絡
隨著平台用戶數量的不斷增加,運營工作量逐漸超出上限。這導致網絡基礎設施通過量和複雜性達到前所未有的水平。以維明生物科學一號為例,其節點利用率長期保持在95%以上。其最大任務運行時間可達109小時,最大排隊時間為550小時。顯然系統和網絡重建迫在眉睫。
為解決這些問題,供應商提出使用無失真網絡技術,如InfiniBand(IB)、RoCEv1和RoCEv2。經過嚴格測試,北京大學公共HPC平台最終選擇了華為CloudFabric 3.0超融合DCN解決方案,因其無與倫比的性能。基於智能無失真HPC網絡,該解決方案適合構建能發揮100%計算能力,最小化任務運行和排隊時間的HPC集群。
華為的智能無失真HPC網絡幫助北京大學提高科學研究效率
測試重點放在LINPACK、CESM和VASP等不同應用場景下TCP/IP、IB和RoCEv2的性能。
在VASP測試中,華為的智能無失真HPC網絡——100GE RoCEv2表現優於IB。在LINPACK和CESM測試中,華為的100GE RoCEv2與IB性能基本持平。這證明華為的智能無失真HPC網絡可以替代IB在實際應用場景下。
華為的智能無失真HPC網絡解決方案唯一實現無失真以太網。相比傳統以太網,無失真以太網可以在相同伺服器規模下雙倍計算能力。解決方案亮點之一是CloudEngine 16800交換機,它提供行業最高密度的768×400GE端口,適合構建10E級超大規模計算集群。此外,華為是唯一實現網絡輔助計算的供應商,即網絡內計算(INC)。根據Tolly驗證,華為解決方案的作業完成時間(JCT)比IB短17%。
北京大學HPC平台擁有中國領先的超級計算集群。整體系統的LINPACK效率長期位居第一,對網絡性能和可靠性提出極高要求。這些測試再次證明華為超融合DCN有多強大,幫助華為在超級計算領域獲得更多認可。展望未來,華為的智能無失真HPC網絡將在教育、科學研究等各個領域得到更廣泛應用,為科學計算、工程創新和高端科學研究奠定堅實基礎。
本文選自華為ICT Insights雜誌智慧教育專刊。歡迎訪問華為官網瞭解更多內容:
https://e.huawei.com/en/ict-insights/global/ict_insights/ict34-intelligent-education
聯繫方式
hwebgcomms@huawei.com