Skip to main content
QUICK REVIEW

[論文レビュー] Agent Factories for High Level Synthesis: How Far Can General-Purpose Coding Agents Go in Hardware Optimization?

Abhishek Bhandwaldar, Mihir Choudhury|arXiv (Cornell University)|Mar 26, 2026
Parallel Computing and Optimization Techniques被引用数 0
ひとこと要約

この論文は、複数の汎用コーディングエージェントを用いてFPGA風の高位合成設計を最適化する2段階のエージェント工場ワークフローを提示し、エージェント数を増やすと大幅な利得が得られることと、サブカーネル除去以上の機能横断的最適化への洞察を示しています。

ABSTRACT

We present an empirical study of how far general-purpose coding agents -- without hardware-specific training -- can optimize hardware designs from high-level algorithmic specifications. We introduce an agent factory, a two-stage pipeline that constructs and coordinates multiple autonomous optimization agents. In Stage~1, the pipeline decomposes a design into sub-kernels, independently optimizes each using pragma and code-level transformations, and formulates an Integer Linear Program (ILP) to assemble globally promising configurations under an area constraint. In Stage~2, it launches $N$ expert agents over the top ILP solutions, each exploring cross-function optimizations such as pragma recombination, loop fusion, and memory restructuring that are not captured by sub-kernel decomposition. We evaluate the approach on 12 kernels from HLS-Eval and Rodinia-HLS using Claude Code (Opus~4.5/4.6) with AMD Vitis HLS. Scaling from 1 to 10 agents yields a mean $8.27 imes$ speedup over baseline, with larger gains on harder benchmarks: streamcluster exceeds $20 imes$ and kmeans reaches approximately $10 imes$. Across benchmarks, agents consistently rediscover known hardware optimization patterns without domain-specific training, and the best designs often do not originate from top-ranked ILP candidates, indicating that global optimization exposes improvements missed by sub-kernel search. These results establish agent scaling as a practical and effective axis for HLS optimization.

研究の動機と目的

  • 一般目的のコーディングエージェントがハードウェア固有の学習なしでハードウェア最適化を改善できるかを検討する。
  • サブカーネル最適化と全体 refinements を通じてHLS設計空間を探る2段階のエージェント工場を提案する。
  • エージェントのスケーリングが多様なカーネルに対するレイテンシ/面積のトレードオフにどう影響するかを定量化する。
  • エージェントが発見するパターンと今後のAI支援HLS研究を導く制約を特定する。

提案手法

  • ステージ1: 設計をサブカーネルに分解し、サブ機能ごとに7個の_variant_を生成、正確性を評価しレイテンシ/面積を合成、ILPを解いてエリア予算内でトップNのグローバル設定を選択。
  • ステージ2: 上位ILP解に対してN人のエキスパートエージェントを起動し、pragma再結合、ループ統合、メモリ再構成などの横断的変換を実施し、合成と正確性チェックを繰り返す。
  • サブカーネル最適化と設計全体の refinements の両方を捉える2段階パイプラインを使用。
  • Claude Code (Opus 4.5/4.6) と AMD Vitis HLS を用いて HLS-Eval と Rodinia-HLS の12個のカーネルを評価し、レイテンシと面積を測定。
Figure 1: Two-stage agent-based pipeline for HLS design space exploration. Given an input design $\mathcal{D}$ , a coordinator agent extracts the function call graph $G$ and spawns one optimizer agent per sub-function $f_{1},\dots,f_{K}$ . Variants are evaluated for correctness and synthesized to ob
Figure 1: Two-stage agent-based pipeline for HLS design space exploration. Given an input design $\mathcal{D}$ , a coordinator agent extracts the function call graph $G$ and spawns one optimizer agent per sub-function $f_{1},\dots,f_{K}$ . Variants are evaluated for correctness and synthesized to ob

実験結果

リサーチクエスチョン

  • RQ1一般目的のコーディングエージェントは、ハードウェア固有の学習なしでハードウェア設計を高位仕様から最適化できるか。
  • RQ2エージェント数の増加(エージェントスケーリング)は、固定エリア予算の下でHLS設計探索とレイテンシを改善するか。
  • RQ3ステージ2で発見された横断最適化は、サブカーネル除去だけでは得られない改善を生むか。
  • RQ4エージェントが発見するハードウェア最適化パターンは何か、カーネル間でドメイン知識と整合しているか。
  • RQ5エージェントベースのHLS最適化がうまく機能しない状況や文脈は何か。

主な発見

Agent Scaling Step (1→2, 2→4, 4→8, 8→10)Mean Speedup over Baseline+Incremental Gain (%)
1→25.26×+5.9%
2→45.81×+13.5%
4→87.66×+31.8%
8→108.27×+7.9%
  • エージェントスケーリングによりレイテンシが大幅に低減され、エージェントを1から10へ増やすと平均スピードアップは8.27倍、ストリームクラスタのような難しいワークロードでは20倍超を達成。
  • グローバル最適化(ステージ2)は、トップILP解から派生しない改善をしばしば見つけ、サブカーネル最適化だけでなく機能間の相互作用が重要であることを示唆。
  • エージェントはARRAY_PARTITIONのようなHLS最適化パターンを繰り返し回復し、メモリと依存関係を先に解決しない限りPIPELINEを避ける、といった既知のパターンを再発見。
  • 改善はデータセットとツールに依存する。提示された結果はClaude Code (Opus 4.5/4.6) と Vitis HLS on FPGA でのもので、ベンチマーク範囲とASICへの一般化には限界があることを認識。
  • 多くのカーネルでレイテンシ改善のピークが中程度のエージェント数で現れ、単純なカーネルではエリア予算が厳しくなると利益が鈍化または飽和する。
Figure 2: Pareto front results for all twelve benchmarks under agent scaling ( $N\in\{1,2,4,8,10\}$ ). Each subplot shows speedup over baseline (y-axis) versus area (x-axis). Increasing the number of agents extends the Pareto front toward lower latency and more favorable area–latency trade-offs acro
Figure 2: Pareto front results for all twelve benchmarks under agent scaling ( $N\in\{1,2,4,8,10\}$ ). Each subplot shows speedup over baseline (y-axis) versus area (x-axis). Increasing the number of agents extends the Pareto front toward lower latency and more favorable area–latency trade-offs acro

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。