QUICK REVIEW

[논문 리뷰] Petascale XCT: 3D Image Reconstruction with Hierarchical Communications on Multi-GPU Nodes

Mert Hidayetoğlu, Tekin Biçer|arXiv (Cornell University)|2020. 09. 15.

Medical Imaging Techniques and Applications참고 문헌 39인용 수 24

한 줄 요약

이 논문은 계층적 통신과 혼합 정밀도 계산을 사용하여 다중 GPU 노드에 최적화된 페타스케일 3D X선 컴퓨터 단층 촬영(XCT) 재구성 시스템을 제시한다. 메모리 중심 2D 최적화를 3D로 확장하고, 노드 내 통신을 줄이며, 혼합 정밀도 산술을 활용함으로써, Summit에서 24,576개의 GPU를 사용해 9K×11K×11K 크기의 쥐 뇌 부피를 3분 이내로 재구성하며, 65 PFLOPS(정점 성능의 34%)에 도달한다.

ABSTRACT

X-ray computed tomography is a commonly used technique for noninvasive imaging at synchrotron facilities. Iterative tomographic reconstruction algorithms are often preferred for recovering high quality 3D volumetric images from 2D X-ray images, however, their use has been limited to small/medium datasets due to their computational requirements. In this paper, we propose a high-performance iterative reconstruction system for terabyte(s)-scale 3D volumes. Our design involves three novel optimizations: (1) optimization of (back)projection operators by extending the 2D memory-centric approach to 3D; (2) performing hierarchical communications by exploiting "fat-node" architecture with many GPUs; (3) utilization of mixed-precision types while preserving convergence rate and quality. We extensively evaluate the proposed optimizations and scaling on the Summit supercomputer. Our largest reconstruction is a mouse brain volume with 9Kx11Kx11K voxels, where the total reconstruction time is under three minutes using 24,576 GPUs, reaching 65 PFLOPS: 34% of Summit's peak performance.

연구 동기 및 목표

테라바이트 규모의 싱크로트론 데이터셋을 위한 반복적 3D 단층 촬영 재구성의 계산 병목 현상을 해결한다.
초대규모 부피와 GPU 자원으로의 확장에서 기존 병렬 처리 기법의 한계를 극복한다.
고해상도와 낮은 노이즈를 갖춘 대규모 생물학적 및 재료 샘플의 고성능, 확장 가능한 재구성을 가능하게 한다.
다중 GPU '지ense' 아키텍처에서 통신 및 메모리 액세스 패턴을 최적화하여 지연을 최소화하고 처리량을 극대화한다.
정밀도를 낮추어 메모리 프로필과 통신 볼륨을 줄이되, 수렴성이나 정확도를 훼손하지 않으면서 재구성 품질을 유지한다.

제안 방법

GPU 노드 간 계층적 데이터 및 배치 분할을 최적화하여 2D 메모리 중심(MemXCT) 기법을 3D로 확장함으로써 (역)투영 연산자를 최적화한다.
공간적 국소성과 공유 메모리 및 레지스터에서의 데이터 재사용을 활용하여 GPU 활용도를 극대화하는 XCT 최적화된 희소 행렬-벡터 곱셈(SpMM) 커널을 설계한다.
계층적 통신 패턴을 구현: 노드 간 통신 이전에 노드 내 감소 연산을 수행하여 노드 간 대역폭 압력을 최소화한다.
반정밀도, 단정밀도, 혼합 정밀도를 사용하여 메모리 프로필과 통신 볼륨을 줄이며, 측정 노이즈에 비해 수치적 노이즈 수준이 낮아 수렴성이 유지됨.
프로세스 및 GPU 노드 간 유연한 로드 밸런싱을 허용하는 구성 가능한 부피 분배 전략을 사용한다.
이러한 최적화를 다수의 싱크로트론 시설에서 유입되는 대규모 단층 촬영 데이터셋을 대상으로 하는 확장 가능한 반복 재구성 프레임워크에 통합한다.

실험 결과

연구 질문

RQ1현대의 다중 GPU 슈퍼컴퓨터를 사용해 페타스케일 부피의 3D 반복적 단층 촬영 재구성을 스케일링할 수 있는가?
RQ2'지ense 노드' GPU 아키텍처에서 계층적 통신 패턴이 대규모 재구성에서 노드 간 통신 오버헤드를 어떻게 줄일 수 있는가?
RQ3반복적 XCT에서 재구성 품질이나 수렴성에 영향을 주지 않으면서 혼합 정밀도 산술을 얼마나 활용할 수 있는가?
RQ4메모리 중심 최적화 기법의 3D 확장이 초대규모 3D 부피에서 높은 GPU 활용도와 성능을 유지할 수 있는가?
RQ5이러한 최적화를 통해 Summit과 같은 페타스케일 시스템에서 전체 3D 뇌 재구성에서 성능 및 효율성 향상은 어느 정도 달성될 수 있는가?

주요 결과

시스템은 Summit 슈퍼컴퓨터에서 24,576개의 GPU를 사용해 9K×11K×11K 크기의 쥐 뇌 재구성을 3분 이내로 달성한다.
재구성 성능은 65 PFLOPS에 도달하여 Summit의 정점 성능의 34%에 해당하며, 높은 강력 스케일링 효율성을 보여준다.
혼합 정밀도 계산은 수렴성과 이미지 품질을 유지하면서 메모리 프로필과 통신 볼륨을 줄이며, 재구성 정밀도에 유의미한 손실가 없이 적용된다.
계층적 통신의 사용은 노드 간 통신을 줄이기 위해 노드 내 GPU 그룹에 감소 연산을 이관함으로써 확장성을 크게 향상시킨다.
XCT 최적화된 SpMM 커널은 공유 메모리 및 레지스터에서의 데이터 재사용을 통해 전역 메모리 액세스를 최소화하여 높은 GPU 활용도를 달성한다.
반정밀도 및 혼합 정밀도를 포함한 모든 정밀도 유형에서 수렴성이 안정적이며, 이는 측정 노이즈 수준이 수치적 노이즈보다 훨씬 높기 때문이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.