Skip to main content
QUICK REVIEW

[论文解读] Communication-optimal parallel and sequential QR and LU factorizations

James Demmel, Laura Grigori|arXiv (Cornell University)|Aug 19, 2008
Interconnection Networks and Systems参考文献 33被引用 34
一句话总结

本文提出了一种通信最优的并行与串行QR和LU分解算法——TSQR与CAQR,通过最小化分布式和分层内存系统中的数据移动(延迟与带宽),显著减少了消息数量和数据传输量,同时保持了与Householder QR相当的数值稳定性。通过将矩阵乘法的通信下界扩展至QR和LU分解,作者证明其算法在通信复杂度上达到最优(忽略对数因子),相比LAPACK和ScaLAPACK有显著改进。

ABSTRACT

We present parallel and sequential dense QR factorization algorithms that are both optimal (up to polylogarithmic factors) in the amount of communication they perform, and just as stable as Householder QR. We prove optimality by extending known lower bounds on communication bandwidth for sequential and parallel matrix multiplication to provide latency lower bounds, and show these bounds apply to the LU and QR decompositions. We not only show that our QR algorithms attain these lower bounds (up to polylogarithmic factors), but that existing LAPACK and ScaLAPACK algorithms perform asymptotically more communication. We also point out recent LU algorithms in the literature that attain at least some of these lower bounds.

研究动机与目标

  • 解决高性能计算中浮点运算与通信成本之间日益扩大的性能差距。
  • 识别并填补科学计算中标准稠密QR与LU分解的通信瓶颈。
  • 设计在数值稳定性与通信避免方面均表现优异的算法,使其在数据移动方面达到理论下界。
  • 证明矩阵乘法的通信下界可推广至QR与LU分解,从而实现最优性分析。
  • 证明现有LAPACK与ScaLAPACK实现的通信量在渐近意义上高于必要水平。

提出的方法

  • 将已知的矩阵乘法通信下界(Hong & Kung, Irony et al.)扩展至包含适用于QR与LU分解的延迟下界。
  • 设计TSQR(Tall Skinny QR)用于行数远多于列数的矩阵,采用基于树的归约方法以最小化消息数量。
  • 开发CAQR(Communication-Avoiding QR)用于一般矩形矩阵,采用递归的块基方法以减少数据移动。
  • 利用雅可比矩阵分析证明:若不丢失信息,则通信无法低于特定下界,从而确立理论最优性。
  • 优化算法布局(块大小、处理器网格)以在串行与并行环境中最小化通信。
  • 使用统一计算模型建模性能:时间 = 浮点运算量×每 flops 所需时间 + 移动数据量×(1/带宽) + 消息数×延迟,不考虑通信与计算的重叠。

实验结果

研究问题

  • RQ1QR与LU分解的通信避免算法能否达到数据移动的理论下界?
  • RQ2现有LAPACK与ScaLAPACK实现是否在渐近意义上产生了过多通信?
  • RQ3能否将矩阵乘法的通信下界推广至QR与LU分解?
  • RQ4串行与并行QR与LU分解中,最少的消息数与移动数据量是多少?
  • RQ5通信避免算法能否保持与Householder QR相当的数值稳定性?

主要发现

  • TSQR将并行QR分解的消息数减少至 log P,这是最优的,比ScaLAPACK的PDGEQRF少 2n 倍。
  • CAQR在并行环境下将消息数减少至 Θ(√(nP/m)),这是最优的,比ScaLAPACK少 Θ(√(mn/P)) 倍。
  • 在串行模式下,TSQR在高速与低速内存之间仅移动 2mn 个字,这是最优的,比分块Householder QR少 mn/(4W) 倍。
  • CAQR将串行环境下的数据移动量减少至 Θ(mn²/√W),这是最优的,比分块Householder QR少 Θ(m/√W) 倍。
  • 在串行模式下,CAQR仅需 12mn²/W³ᐟ² 条消息,这是最优的,远少于Householder QR。
  • 本文证明了矩阵乘法的通信下界适用于QR与LU分解,从而为所提算法提供了正式的最优性证明。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。