[논문 리뷰] Comparing single-node and multi-node performance of an important fusion HPC code benchmark
이 논문은 단일 노드 및 다중 노드 HPC 시스템에서 핵융합 플라즈마 난류 시뮬레이션 코드인 CGYRO의 성능을 평가한다. 16개의 GPU를 탑재한 Google Cloud의 A100 인스턴스를 사용하여, nl03 벤치마크가 8개의 NERSC Perlmutter, 16개의 ORNL Summit, 또는 256개의 NERSC Cori 노드보다 빠르게 완료된다—사용된 GPU 수가 절반 이하이면서도 유사한 시뮬레이션 시간을 달성한다. 이 연구는 고대역폭 로컬 GPU 상호연결이 다중 노드 네트워크보다 통신 집약적인 핵융합 코드에서 뛰어난 성능을 발휘함을 시사한다.
Fusion simulations have traditionally required the use of leadership scale High Performance Computing (HPC) resources in order to produce advances in physics. The impressive improvements in compute and memory capacity of many-GPU compute nodes are now allowing for some problems that once required a multi-node setup to be also solvable on a single node. When possible, the increased interconnect bandwidth can result in order of magnitude higher science throughput, especially for communication-heavy applications. In this paper we analyze the performance of the fusion simulation tool CGYRO, an Eulerian gyrokinetic turbulence solver designed and optimized for collisional, electromagnetic, multiscale simulation, which is widely used in the fusion research community. Due to the nature of the problem, the application has to work on a large multi-dimensional computational mesh as a whole, requiring frequent exchange of large amounts of data between the compute processes. In particular, we show that the average-scale nl03 benchmark CGYRO simulation can be run at an acceptable speed on a single Google Cloud instance with 16 A100 GPUs, outperforming 8 NERSC Perlmutter Phase1 nodes, 16 ORNL Summit nodes and 256 NERSC Cori nodes. Moving from a multi-node to a single-node GPU setup we get comparable simulation times using less than half the number of GPUs. Larger benchmark problems, however, still require a multi-node HPC setup due to GPU memory capacity needs, since at the time of writing no vendor offers nodes with a sufficient GPU memory setup. The upcoming external NVSWITCH does however promise to deliver an almost equivalent solution for up to 256 NVIDIA GPUs.
연구 동기 및 목표
- CGYRO 핵융합 시뮬레이션 코드에 대한 단일 노드 및 다중 노드 HPC 구성 간의 성능 트레이드오프를 평가하기 위해.
- 최근의 대규모 GPU 노드가 기존의 다중 노드 리더십 HPC 시스템보다 주류 핵융합 시뮬레이션에 더 나은 성능을 발휘할 수 있는지 확인하기 위해.
- CGYRO와 같은 통신 집약적인 HPC 워크로드에 대해 상호연결 대역폭의 영향을 평가하기 위해.
- 핵융합 과학 HPC 인프라에 대규모 단일 노드 GPU 시스템의 도입을 촉진하기 위해.
제안 방법
- Google Cloud의 16개 A100 GPU 단일 노드 및 NERSC Perlmutter, ORNL Summit, NERSC Cori 다중 노드 HPC 시스템에서 CGYRO의 nl03 테스트 케이스를 벤치마킹하였다.
- 다양한 구성에서 시간-해결 및 GPU 활용도를 측정하여 성능를 비교하였다.
- MPI_AllToAll 및 MPI_AllReduce 연산을 포함한 MPI 커뮤니케이터를 중심으로 통신 패턴을 분석하였다.
- 노드 내부 NVLink 대역폭과 노드 간 네트워크 대역폭(예: 40–50 Gbps)을 비교하여 상호연결 성능을 평가하였다.
- 자주 데이터 교환을 요구하는 6D 계산 메esh를 포함한 대표적인 핵융합 시뮬레이션 워크로드를 사용하였다.
- GPU 메모리 용량이 문제의 확장성에 미치는 영향을 평가하여 단일 노드 배포의 한계를 규명하였다.
실험 결과
연구 질문
- RQ1통신 집약적인 핵융합 시뮬레이션인 CGYRO에 대해 대규모 단일 GPU 노드가 다중 노드 HPC 시스템을 초월할 수 있는가?
- RQ2이 워크로드에서 노드 내부 GPU 상호연결과 노드 간 네트워크 상호연결 간의 성능 격차는 어떠한가?
- RQ3GPU 수와 그 메모리 용량이 단일 노드에서 CGYRO 벤치마크를 실행하는 데 있어 가능성을 어떻게 영향을 주는가?
- RQ4현대의 GPU 가속기들이 이전에는 다중 노드 HPC가 필요로 했던 문제에 대해 단일 노드 솔루션을 얼마나 가능하게 하는가?
- RQ5핵융합 에너지 연구의 HPC 자원 조달 전략에 대해 어떤 함의가 있는가?
주요 결과
- nl03 벤치마크는 8개의 NERSC Perlmutter, 16개의 ORNL Summit, 또는 256개의 NERSC Cori 노드보다 단일 Google Cloud 16-A100 GPU 노드에서 더 빠르게 완료되었다.
- 단일 노드 구성에서는 다중 노드 설정보다 사용된 GPU 수의 절반 이하로도 유사한 시간-해결 성능를 달성하였다.
- 성능 우월성은 노드 내부 상호연결 대역폭(NVLink)이 노드 간 네트워크 대역폭(예: 40–50 Gbps)보다 훨씬 높기 때문이다.
- 다중 노드 HPC 시스템은 네트워크 병목 현상으로 인해 성능 향상이 제한되었으며, GPU 당 계산 처리 능력은 더 높았다.
- 더 큰 CGYRO 시뮬레이션은 현재 제조사에서 제공하는 노드의 GPU 메모리 용량이 충분하지 않아 여전히 다중 노드 시스템이 필요하다.
- 향후 출시 예정인 NVIDIA 외부 NVSwitch는 최대 256개의 GPU에 걸쳐 고대역폭 상호연결을 확장할 수 있으며, 더 큰 시뮬레이션에 대한 확장 가능한 대안을 제공할 것이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.