QUICK REVIEW

[论文解读] PASTA: A Modular Program Analysis Tool Framework for Accelerators

Mao Lin, Hyeran Jeon|arXiv (Cornell University)|Feb 25, 2026

Parallel Computing and Optimization Techniques被引用 0

一句话总结

PASTA 是一个低开销、模块化的框架，统一跨厂商加速器分析与 DL 框架事件，实现可自定义、可扩展的性能分析。它展示了基于 GPU 加速、范围聚焦的分析以及对开源工具的多GPU支持。

ABSTRACT

The increasing complexity and diversity of hardware accelerators in modern computing systems demand flexible, low-overhead program analysis tools. We present PASTA, a low-overhead and modular Program AnalysiS Tool Framework for Accelerators. PASTA abstracts over low-level profiling APIs and diverse deep learning frameworks, offering users a unified interface to capture and analyze runtime events at multiple levels. Its extensible design enables researchers and practitioners to rapidly prototype custom tools with minimal overhead. We demonstrate the utility of PASTA by developing several analysis tools, including a deep learning workload characterization tool and a UVM optimization tool. Through extensive evaluation on mainstream deep learning workloads tested on NVIDIA and AMD GPUs under both single- and multi-GPU scenarios, we demonstrate PASTA's broad applicability. On NVIDIA GPUs, we further show that PASTA provides detailed performance insights with significantly lower overhead, up to 1.3*10^4 faster than conventional analysis tools, thanks to its GPU-accelerated backend. PASTA strikes a practical balance between usability, extensibility, and efficiency, making it well-suited for modern accelerator-based computing environments.

研究动机与目标

提供一个灵活、低开销的框架，用于捕获并分析来自多个厂商的加速器上的运行时事件。
抽象化厂商特定分析接口，以支持统一的跨厂商分析工作流。
整合深度学习框架事件，为分析提供高级工作负载上下文。
通过 DL 工作负载表征和 UVM 优化工具展示实际效用。
展示在单GPU和多GPU设置下的可扩展性，同时降低分析开销。

提出的方法

引入三模块架构：事件处理器（Event Handler）、事件处理（Event Processor）与工具集合（Tool Collection），并具模块化接口以便轻松扩展。
实现一个 GPU 加速的事件处理路径，设备端预处理降低 CPU-GPU 开销。
提供统一的事件分类（低级加速器事件与高级 DL 框架事件）和归一化器以支持跨厂商分析。
通过环境变量和 Python 注释实现范围特定分析，以最小侵入实现精细分析。
提供运行时注入接口（LD_PRELOAD）来在不修改源代码的情况下对应用程序进行分析。
开发示例工具（如 DL 工作负载表征、UVM 优化）以验证扩展性和开销收益。

实验结果

研究问题

RQ1如何在跨厂商框架中统一、可扩展地捕获低级加速器事件与高级 DL 框架事件？
RQ2在分析 DL 工作负载时，与基于 CPU 的分析相比，GPU 上的收集与分析模型的开销与效果如何？
RQ3一个模块化的工具集合是否能在最小化改动的情况下支持快速原型化的自定义分析？
RQ4PASTA 在单 GPU 与多 GPU 场景下对主流 DL 工作负载的表现如何？
RQ5使用基于 Pasta 的工具能获得哪些洞见（内核瓶颈、内存模式、UVM 行为等）？

主要发现

PASTA 为 NVIDIA 和 AMD GPU 提供跨厂商支持，集成 DL 框架并具开源可用性。
GPU 加速的分析后端降低开销， profiling 速度显著提升（GPU 加速后端）。
案例研究显示可操作的洞见，如内核瓶颈、内存利用不足和 UVM 预取优化。
PASTA 的模块化设计使自定义分析的快速原型开发成为可能，框架改动最小。
在分布式场景中，可通过将事件与设备关联来实现多 GPU 设置的逐 rank 或逐节点分析。
使用 Pasta 构建的工具相较于厂商专用分析管线具有更低开销和更丰富的跨层可见性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。