[論文レビュー] PASTA: A Modular Program Analysis Tool Framework for Accelerators
PASTAは、クロスベンダーのアクセラレータ profカ profilingとDLフレームワークイベントを統合し、カスタムで拡張可能なパフォーマンス分析を可能にする低オーバーヘッドのモジュラー枠組みです。GPU加速の範囲特化分析とオープンソースツールを用いたマルチGPU対応を実証します。
The increasing complexity and diversity of hardware accelerators in modern computing systems demand flexible, low-overhead program analysis tools. We present PASTA, a low-overhead and modular Program AnalysiS Tool Framework for Accelerators. PASTA abstracts over low-level profiling APIs and diverse deep learning frameworks, offering users a unified interface to capture and analyze runtime events at multiple levels. Its extensible design enables researchers and practitioners to rapidly prototype custom tools with minimal overhead. We demonstrate the utility of PASTA by developing several analysis tools, including a deep learning workload characterization tool and a UVM optimization tool. Through extensive evaluation on mainstream deep learning workloads tested on NVIDIA and AMD GPUs under both single- and multi-GPU scenarios, we demonstrate PASTA's broad applicability. On NVIDIA GPUs, we further show that PASTA provides detailed performance insights with significantly lower overhead, up to 1.3*10^4 faster than conventional analysis tools, thanks to its GPU-accelerated backend. PASTA strikes a practical balance between usability, extensibility, and efficiency, making it well-suited for modern accelerator-based computing environments.
研究の動機と目的
- 複数のベンダーからのアクセラレータ上のランタイムイベントをキャプチャし分析する、柔軟で低オーバーヘッドのフレームワークを提供する。
- ベンダー固有のプロファイリングインタフェースを抽象化し、統一されたクロスベンダー分析ワークフローを実現する。
- 深層学習フレームワークのイベントを統合し、分析における高レベルのワークロード文脈を提供する。
- DLワークロードの特性化とUVM最適化ツールを通じて実用的な有用性を示す。
- 単一GPUおよびマルチGPU構成で、分析オーバーヘッドを削減したスケーラビリティを示す。
提案手法
- イベントハンドラ、イベントプロセッサ、ツールコレクションの3モジュールアーキテクチャを導入し、拡張が容易なモジュール式インタフェースを提供。
- デバイス側の前処理でCPU-GPUオーバーヘッドを削減するGPU加速のイベント処理パスを実装。
- 低レベルのアクセラレータイベントと高レベルのDLフレームワークイベントを統一的なイベント分類法とノーマライザでサポートし、クロスベンダーのプロファイリングを実現。
- 環境変数とPython注釈を用いたレンジ特定分析を有効化し、最小限の干渉で細かなプロファイリングを可能にする。
- ソース変更なしでアプリケーションを改変できるランタイム挿入インタフェース(LD_PRELOAD)を提供。
- 拡張性とオーバーヘッドの利点を検証するための例ツール(例:DLワークロードの特性化、UVM最適化)を開発。
実験結果
リサーチクエスチョン
- RQ1統一され拡張可能なフレームワークが、複数ベンダーの低レベルのアクセラレータイベントと高レベルのDLフレームワークイベントの両方をどのようにキャプチャできるか?
- RQ2GPU在席の収集・分析モデルとCPUベースの分析とを比較した場合、DLワークロードのプロファイリングにおけるオーバーヘッドと有効性はどうか?
- RQ3モジュール式ツールコレクションは、最小限の計Instrumentationでカスタム分析の素早いプロトタイピングをサポートできるか?
- RQ4PASTAは、主流のDLワークロードにおいて単一GPUおよびマルチGPUシナリオでどのように性能を発揮するか?
- RQ5PASTAベースのツールで得られる知見(カーネルボトルネック、メモリパターン、UVM挙動など)はどのようなものか?
主な発見
- PASTAはNVIDIAおよびAMDのGPUを跨ぐベンダー間サポートを提供し、DLフレームワーク統合とオープンソース対応を実現している。
- GPU加速分析バックエンドはオーバーヘッドを削減し、従来ツールに比べてプロファイリングを大幅に高速化している(GPU加速バックエンド)。
- ケーススタディは、カーネルボトルネック、メモリの過少利用、UVMプリフェッチ最適化といった実践的な洞察を示している。
- PASTAのモジュール設計は、フレームワークの最小変更でカスタム分析の素早いプロトタイピングを可能にする。
- マルチGPU構成では、イベントをデバイスに関連付け、分散環境でのランクごとまたはノードごとのプロファイリングが可能。
- PASTAで構築されたツールは、ベンダー固有のプロファイリングパイプラインよりも低オーバーヘッドで、より豊富なクロスレイヤー可視性を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。