QUICK REVIEW

[論文レビュー] Comparing single-node and multi-node performance of an important fusion HPC code benchmark

E. A. Belli, J. Candy|arXiv (Cornell University)|May 19, 2022

Magnetic confinement fusion research参考文献 2被引用数 4

ひとこと要約

この論文は、核融合プラズマ乱流シミュレーションコードであるCGYROの性能を、単一ノードおよびマルチノードHPCシステム上で評価している。16 GPUのGoogle Cloud A100インスタンスを用いた場合、8 NERSC Perlmutter、16 ORNL Summit、256 NERSC Coriノードよりもnl03ベンチマークが高速に完了し、GPU数を50%未満で同等のシミュレーション時間を達成している。本研究では、通信集約的な核融合コードにおいて、大規模な単一ノードにおける高帯域幅のローカルGPUインタコネクトが、マルチノードネットワークを上回ることを示している。

ABSTRACT

Fusion simulations have traditionally required the use of leadership scale High Performance Computing (HPC) resources in order to produce advances in physics. The impressive improvements in compute and memory capacity of many-GPU compute nodes are now allowing for some problems that once required a multi-node setup to be also solvable on a single node. When possible, the increased interconnect bandwidth can result in order of magnitude higher science throughput, especially for communication-heavy applications. In this paper we analyze the performance of the fusion simulation tool CGYRO, an Eulerian gyrokinetic turbulence solver designed and optimized for collisional, electromagnetic, multiscale simulation, which is widely used in the fusion research community. Due to the nature of the problem, the application has to work on a large multi-dimensional computational mesh as a whole, requiring frequent exchange of large amounts of data between the compute processes. In particular, we show that the average-scale nl03 benchmark CGYRO simulation can be run at an acceptable speed on a single Google Cloud instance with 16 A100 GPUs, outperforming 8 NERSC Perlmutter Phase1 nodes, 16 ORNL Summit nodes and 256 NERSC Cori nodes. Moving from a multi-node to a single-node GPU setup we get comparable simulation times using less than half the number of GPUs. Larger benchmark problems, however, still require a multi-node HPC setup due to GPU memory capacity needs, since at the time of writing no vendor offers nodes with a sufficient GPU memory setup. The upcoming external NVSWITCH does however promise to deliver an almost equivalent solution for up to 256 NVIDIA GPUs.

研究の動機と目的

CGYRO核融合シミュレーションコードの単一ノードとマルチノードHPC構成の間の性能トレードオフを評価すること。
現代の大型GPUノードが、主流の核融合シミュレーションにおいて、従来のマルチノードリーダーシップHPCシステムを上回る可能性があるかどうかを特定すること。
インタコネクト帯域幅が、CGYROのような通信集約的HPCワークロードに与える影響を評価すること。
核融合科学HPCインfraストラクチャにおいて、大型単一ノードGPUシステムの導入を提唱すること。

提案手法

Google Cloudの16 A100 GPU単一ノードおよびNERSC Perlmutter、ORNL Summit、NERSC CoriのマルチノードHPCシステムで、CGYROのnl03テストケースをベンチマーク化した。
性能を比較するために、さまざまな構成における時間対解決（time-to-solution）とGPU利用率を測定した。
MPI_AllToAllおよびMPI_AllReduce操作を含むMPIコミュニケータを対象に、通信パターンを分析した。
ノード内NVLink帯域幅とノード間ネットワーク帯域幅（例：40–50 Gbps）を比較することで、インタコネクト性能を評価した。
頻繁なデータ交換を要する6次元計算メッシュを有する代表的な核融合シミュレーションワークロードを用いた。
GPUメモリ容量が問題のスケーラビリティに与える影響を評価し、単一ノードデプロイの限界を特定した。

実験結果

リサーチクエスチョン

RQ1通信集約的な核融合シミュレーション（CGYROなど）において、大型GPUノードがマルチノードHPCシステムを上回ることができるか？
RQ2このワークロードにおいて、ノード内GPUインタコネクト帯域幅とノード間ネットワークインタコネクト帯域幅の性能差はどの程度か？
RQ3GPU数およびそのメモリ容量が、単一ノード上でCGYROベンチマークを実行する可能性に与える影響は何か？
RQ4現代のGPUアクセcelレータは、かつてマルチノードHPCを必要としていた問題に対して、単一ノードソリューションをどの程度可能にできるか？
RQ5核融合エネルギー研究におけるHPCリソース調達戦略にどのような意味を持つのか？

主な発見

nl03ベンチマークは、Google Cloudの16-A100 GPUノードで、8 NERSC Perlmutter、16 ORNL Summit、256 NERSC Coriノードよりも高速に完了した。
単一ノード性能は、マルチノード構成よりもGPU数を50%未満で、同等の時間対解決を達成した。
性能優位性は、ノード内（NVLink）の大幅に高いインタコネクト帯域幅と、ノード間ネットワーク（例：40–50 Gbps）との差に起因する。
マルチノードHPCシステムでは、高いGPUあたりの計算スループットにもかかわらず、ネットワークボトルネックのため、スループットの向上が限定的だった。
GPUメモリ容量の制限のため、より大きなCGYROシミュレーションは依然としてマルチノードシステムを必要としており、現在のベンダーでは十分なGPUメモリを備えたノードを提供していない。
近い将来に登場するNVIDIAの外部NVSwitchは、最大256 GPUまで高帯域幅インタコネクトを拡張可能であり、より大きなシミュレーションのスケーラブルな代替手段を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。