QUICK REVIEW

[論文レビュー] GOMA: Geometrically Optimal Mapping via Analytical Modeling for Spatial Accelerators

Wulve Yang, Hailong Zou|arXiv (Cornell University)|Mar 9, 2026

Parallel Computing and Optimization Techniques被引用数 0

ひとこと要約

GOMAは空間加速器上で全球最適なGEMMマッピングを計算する厳密な解析エネルギー目的を備えた幾何学的抽象化フレームワークを導入し、エネルギー–遅延積の改善とより速い解決時間を実証します。

ABSTRACT

General matrix multiplication (GEMM) on spatial accelerators is highly sensitive to mapping choices in both execution efficiency and energy consumption. However, the mapping space exhibits combinatorial explosion, which makes it extremely challenging to obtain optimal mappings within an acceptable time budget. Existing approaches typically face challenges: They often lack global-optimality guarantees and become prohibitively slow as the mapping space grows. To address these limitations, we propose extsc{GOMA}, a geometric-abstraction-based, globally optimal GEMM mapping framework via analytical modeling, which achieves efficient solving while guaranteeing optimality. extsc{GOMA} introduces, from first principles, a geometric abstraction for GEMM mapping, yielding an exact analytical energy objective with $O(1)$ evaluation for any given mapping. The objective is highly accurate. extsc{GOMA} then formulates mapping selection as an integer optimization problem under hardware and mapping constraints, using the analytical energy model as the objective to automate mapping search. extsc{GOMA} can quickly compute a global-optimal mapping for any (GEMM workload, target hardware) pair, achieving this for the first time in mapping space exploration. Experiments confirm that across representative accelerators and large language model prefill workloads, extsc{GOMA} improves the energy--delay product (EDP) by $2.24$--$4.24 imes$ over SOTA mappers, while accelerating time-to-solution by $3.83$--$73.6 imes$.

研究の動機と目的

組合せ的マッピング空間の中で、空間加速器上のGEMMマッピングのエネルギー効率ニーズを動機づける。
任意のマッピングに対して厳密で定数時間のエネルギー目的を生み出す幾何学的抽象化を提案する。
タイル分割、ウォーキング軸、バイパスポリシーを選択するためのグローバルで制約を意識した最適化問題を定式化する。
受信者中心の閉形式のエネルギーモデルを提供し、証明可能な最適マッピングと証明書を可能にする。

提案手法

GEMMの3D計算グリッド表現を導入し、投影A(x,z)、B(y,z)、P(x,y)を定義する。
5つのハードウェアレベル（DRAM、SRAM、PEアレイ、レジスタファイル、MACC）にわたる階層的なタイル分割を定義する。
データトラフィックを投影面積のカウントとして定量化するためのウォーキング軸と投影更新を介した走査をモデル化する。
レベルバイパスポリシーを組み込み、データソースの再マッピングと受信者中心のエネルギー帰属を行う。
各投影トラフィックを1アクセスあたりのエネルギー定数で重み付けする閉形式のエネルギー式を開発し、全球整数最適化目的を形成する。
計算されたマッピングの検証可能な最適性証明を提供する。

実験結果

リサーチクエスチョン

RQ1空間加速器上のGEMMマッピングは、定義されたエネルギー目的とハードウェア制約の下で全球最適になり得るか？
RQ2幾何学的抽象化は任意のマッピングに対して厳密でO(1)評価のエネルギーモデルを生成できるか？
RQ3ループの順序置換（ウォーキング軸）とデータバイパス選択が、メモリ階層全体のエネルギーとデータトラフィックに与える影響は？
RQ4提案モデルはさまざまなGEMMワークロードとハードウェアテンプレートに対して高速で検証可能な最適マッピングを提供できるか？

主な発見

GOMAは、エネルギー–遅延積（EDP）を現状のマッパーより2.24×から4.24×改善し、加速器とLLMプレフィル workloadsに適用して実証した。
GOMAは既存のマッピング手法と比較して解決時間を3.83×から73.6×高速化した。
このフレームワークは、厳密な解析エネルギーモデル（O(1)評価）と閉形式の最適化目的を用いて検証可能な全球最適性を提供する。
代表的な加速器と大規模言語モデルワークロードを対象とする実験で、エネルギーと性能の向上を検証した。
GOMAは特定のGEMMワークロードとハードウェアインスタンスに対して全球最適マッピングを数秒以内に計算できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。