QUICK REVIEW

[论文解读] Generating SU(Nc) pure gauge lattice QCD configurations on GPUs with CUDA and OpenMP

Nuno Cardoso, Pedro Bicudo|arXiv (Cornell University)|Dec 20, 2011

Quantum Chromodynamics and Particle Interactions被引用 2

一句话总结

本文提出了针对GPU上生成SU(Nc)纯规范格点QCD配置的优化CUDA和OpenMP实现，针对SU(2)、SU(3)、SU(4)以及Nc ≥ 4的通用SU(Nc)代码实现了高性能。作者展示了相对于基于CPU的方法显著的加速效果，相关代码已公开，供格点QCD社区使用。

ABSTRACT

The starting point of any lattice QCD computation is the generation of a Markov chain of gauge field configurations. Due to the large number of lattice links and due to the matrix multiplications, generating SU(Nc) lattice QCD configurations is a highly demanding computational task, requiring advanced computer parallel architectures such as clusters of several Central Processing Units (CPUs) or Graphics Processing Units (GPUs). In this paper we present and explore the performance of CUDA codes for NVIDIA GPUs to generate SU(Nc) lattice QCD pure gauge configurations. Our implementation in one GPU uses CUDA and in multiple GPUs uses OpenMP and CUDA. We present optimized CUDA codes SU(2), SU(3) and SU(4). We also show a generic SU(Nc) code for Nc$\,\geq 4$ and compare it with the optimized version of SU(4). Our codes are publicly available for free use by the lattice QCD community.

研究动机与目标

为了加速SU(Nc)纯规范格点QCD配置的生成，这些配置由于矩阵乘法和大格点尺寸而计算量巨大。
通过CUDA利用GPU并行性实现单GPU性能，并使用OpenMP扩展至多GPU系统以实现可扩展性。
为Nc ≥ 4开发优化的通用SU(Nc)代码，实现超越SU(3)和SU(2)的高效模拟。
向格点QCD社区提供公开可用的高性能代码，以支持格点场论模拟的进一步发展。

提出的方法

使用CUDA内核实现SU(Nc)规范场更新，以利用NVIDIA GPU上的数据级并行性。
使用OpenMP管理混合CPU-GPU架构中多个GPU之间的数据分发和同步。
设计内存访问模式和内核启动方式，以最小化延迟并最大化GPU流式多处理器的占用率。
利用设备特定的CUDA特性优化矩阵乘法和SU(Nc)群投影例程。
开发支持Nc ≥ 4的通用SU(Nc)内核，抽象出特定群结构。
在单GPU和多GPU系统上对SU(2)、SU(3)和SU(4)配置的性能进行基准测试。

实验结果

研究问题

RQ1通过CUDA实现GPU加速，如何提升SU(Nc)格点QCD配置生成的性能？
RQ2在格点QCD模拟中，使用OpenMP与CUDA结合的多GPU方案，其可扩展性和性能提升如何？
RQ3对于Nc ≥ 4的通用SU(Nc)实现，其性能与针对SU(4)优化的代码相比如何？
RQ4基于GPU的格点规范场生成中的关键瓶颈是什么，如何加以缓解？

主要发现

CUDA优化的单GPU实现相对于传统的CPU方法，在SU(2)、SU(3)和SU(4)规范群中均实现了显著的性能提升。
混合使用OpenMP与CUDA的方法可在多个GPU间实现高效扩展，显著缩短大格点配置的生成时间。
针对Nc ≥ 4的通用SU(Nc)代码在保持高性能的同时，支持超越SU(3)的任意幺正规范群。
性能基准测试表明，针对Nc = 4优化的SU(4)内核性能优于通用SU(Nc)实现，表明代码特化具有重要价值。
作者成功向格点QCD社区公开提供可生产使用的高性能代码，使更广泛的用户能够获得高性能模拟支持。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。