[论文解读] A Systematic Literature Survey of Sparse Matrix-Vector Multiplication
本综述系统性地评估 SpMV 优化技术在应用、格式、算法和架构上的研究,概括优点、弱点和未解决的挑战。它还提供全面的性能评估和未来方向。
Sparse matrix-vector multiplication (SpMV) is a crucial computing kernel with widespread applications in iterative algorithms. Over the past decades, research on SpMV optimization has made remarkable strides, giving rise to various optimization contributions. However, the comprehensive and systematic literature survey that introduces, analyzes, discusses, and summarizes the advancements of SpMV in recent years is currently lacking. Aiming to fill this gap, this paper compares existing techniques and analyzes their strengths and weaknesses. We begin by highlighting two representative applications of SpMV, then conduct an in-depth overview of the important techniques that optimize SpMV on modern architectures, which we specifically classify as classic, auto-tuning, machine learning, and mixed-precision-based optimization. We also elaborate on the hardware-based architectures, including CPU, GPU, FPGA, processing in Memory, heterogeneous, and distributed platforms. We present a comprehensive experimental evaluation that compares the performance of state-of-the-art SpMV implementations. Based on our findings, we identify several challenges and point out future research directions. This survey is intended to provide researchers with a comprehensive understanding of SpMV optimization on modern architectures and provide guidance for future work.
研究动机与目标
- 在实际问题中识别 SpMV 的实际应用及其表述。
- 调查并对现有稀疏压缩格式与 SpMV 优化技术进行分类。
- 分析跨架构的最先进 SpMV 实现的性能。
- 突出挑战并提出 SpMV 优化的未来研究方向。
提出的方法
- 将 SpMV 优化分为四个维度:应用、矩阵为中心的格式、算法为中心的优化以及架构为中心的方法。
- 回顾经典、自调优、机器学习和混合精度优化技术。
- 总结稀疏压缩格式,包括基本格式、规则切片/阻塞、不规则、位/字节压缩,以及混合格式(并给出示例)。
- 通过全面实验对两种硬件平台上的领先实现的 SpMV 性能进行比较。
实验结果
研究问题
- RQ1RQ1:SpMV 的实际应用及其问题表述是什么?
- RQ2RQ2:在格式、算法和架构方面,SpMV 研究的最新进展有哪些?
- RQ3RQ3:最先进的 SpMV 实现在现代硬件上的性能如何?
- RQ4RQ4:从当前的 SpMV 研究中可以推断出哪些挑战与未来方向?
- RQ5(隐含) 不同格式和架构如何影响 SpMV 的效率和可扩展性?
主要发现
- SpMV 优化跨越矩阵为中心的格式、算法策略,以及面向架构的实现,覆盖 CPU、GPU、FPGA、PIM、异构系统和分布式系统。
- 存在广泛的压缩格式谱系——从基本格式(COO、CSR、ELL、DIA)到高级的不规则和混合方案——在存储、内存访问和计算方面有不同的权衡。
- 自调优和机器学习方法被用来为给定矩阵和硬件选择格式并配置参数。
- 混合精度技术被讨论为加速 SpMV 的途径。
- 该综述提供对领先 SpMV 实现的广泛实验比较,并讨论当前挑战和未来方向。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。