Skip to main content
QUICK REVIEW

[论文解读] Petascale XCT: 3D Image Reconstruction with Hierarchical Communications on Multi-GPU Nodes

Mert Hidayetoğlu, Tekin Biçer|arXiv (Cornell University)|Sep 15, 2020
Medical Imaging Techniques and Applications参考文献 39被引用 24
一句话总结

本论文提出了一套面向多GPU节点的、针对大规模3D X射线计算机断层扫描(XCT)重建的Peta-scale系统,通过分层通信与混合精度计算进行优化。通过将面向内存的2D优化方法扩展至3D,减少节点内通信,并利用混合精度算术,该系统在Summit上使用24,576块GPU实现了9K×11K×11K小鼠脑体积的亚三分钟重建,达到65 PFLOPS(峰值性能的34%)。

ABSTRACT

X-ray computed tomography is a commonly used technique for noninvasive imaging at synchrotron facilities. Iterative tomographic reconstruction algorithms are often preferred for recovering high quality 3D volumetric images from 2D X-ray images, however, their use has been limited to small/medium datasets due to their computational requirements. In this paper, we propose a high-performance iterative reconstruction system for terabyte(s)-scale 3D volumes. Our design involves three novel optimizations: (1) optimization of (back)projection operators by extending the 2D memory-centric approach to 3D; (2) performing hierarchical communications by exploiting "fat-node" architecture with many GPUs; (3) utilization of mixed-precision types while preserving convergence rate and quality. We extensively evaluate the proposed optimizations and scaling on the Summit supercomputer. Our largest reconstruction is a mouse brain volume with 9Kx11Kx11K voxels, where the total reconstruction time is under three minutes using 24,576 GPUs, reaching 65 PFLOPS: 34% of Summit's peak performance.

研究动机与目标

  • 解决用于TB级同步辐射数据集的迭代式3D断层成像重建中的计算瓶颈问题。
  • 克服现有并行化技术在扩展至极端规模体积与GPU资源时的局限性。
  • 实现对大型生物与材料样品的高性能、可扩展重建,具备高保真度与低噪声特性。
  • 针对多GPU‘胖节点’架构优化通信与内存访问模式,以最小化延迟并最大化吞吐量。
  • 在降低精度以减少内存占用与通信量的同时,保持重建质量,不牺牲收敛性或准确性。

提出的方法

  • 通过在GPU节点间采用分层数据与批处理分区方式,优化(反)投影算子,将面向2D的内存中心化(MemXCT)方法扩展至3D。
  • 设计针对XCT优化的稀疏矩阵-向量乘法(SpMM)内核,利用空间局部性,并重用共享内存与寄存器中的数据,以最大化GPU利用率。
  • 实现分层通信模式:在节点间通信前,先在GPU节点内部执行归约操作,以减轻节点间带宽压力。
  • 采用混合精度算术(半精度、单精度及混合精度),以减少内存占用与通信量,由于数值噪声底限远低于测量噪声,因此收敛性得以保持。
  • 采用可配置的体积分发策略,支持跨进程与GPU节点的灵活负载均衡。
  • 将这些优化整合进可扩展的迭代重建框架中,专为同步辐射设施产生的大规模断层成像数据集而设计。

实验结果

研究问题

  • RQ1能否利用现代多GPU超算系统将3D迭代式断层成像重建扩展至TB级规模的体积?
  • RQ2在‘胖节点’GPU架构上,分层通信模式如何降低大规模重建中的节点间通信开销?
  • RQ3在迭代XCT中,混合精度算术在不降低重建质量或收敛性的情况下,可被使用到何种程度?
  • RQ4面向极端规模3D体积,内存中心化优化技术的3D扩展能否保持高GPU利用率与高性能?
  • RQ5在Summit等Peta-scale系统上,采用这些优化技术后,全3D脑部重建在性能与效率方面可实现多大提升?

主要发现

  • 该系统在Summit超算上使用24,576块GPU,实现了9K×11K×11K小鼠脑体积的重建,耗时不足三分钟。
  • 重建性能达到65 PFLOPS,相当于Summit峰值性能的34%,展现出优异的强可扩展性效率。
  • 混合精度计算在不显著损失重建保真度的前提下,有效减少了内存占用与通信量,同时保持了收敛性与图像质量。
  • 通过将归约操作卸载至节点内GPU组,分层通信显著降低了节点间通信量,显著提升了可扩展性。
  • XCT优化的SpMM内核通过重用共享内存与寄存器中的数据,最小化全局内存访问,实现了高GPU利用率。
  • 由于测量噪声底限远高于数值噪声,所有精度类型(包括半精度与混合精度)的收敛性均保持稳定。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。