[論文レビュー] Agent Factories for High Level Synthesis: How Far Can General-Purpose Coding Agents Go in Hardware Optimization?
この論文は、複数の汎用コーディングエージェントを用いてFPGA風の高位合成設計を最適化する2段階のエージェント工場ワークフローを提示し、エージェント数を増やすと大幅な利得が得られることと、サブカーネル除去以上の機能横断的最適化への洞察を示しています。
We present an empirical study of how far general-purpose coding agents -- without hardware-specific training -- can optimize hardware designs from high-level algorithmic specifications. We introduce an agent factory, a two-stage pipeline that constructs and coordinates multiple autonomous optimization agents. In Stage~1, the pipeline decomposes a design into sub-kernels, independently optimizes each using pragma and code-level transformations, and formulates an Integer Linear Program (ILP) to assemble globally promising configurations under an area constraint. In Stage~2, it launches $N$ expert agents over the top ILP solutions, each exploring cross-function optimizations such as pragma recombination, loop fusion, and memory restructuring that are not captured by sub-kernel decomposition. We evaluate the approach on 12 kernels from HLS-Eval and Rodinia-HLS using Claude Code (Opus~4.5/4.6) with AMD Vitis HLS. Scaling from 1 to 10 agents yields a mean $8.27 imes$ speedup over baseline, with larger gains on harder benchmarks: streamcluster exceeds $20 imes$ and kmeans reaches approximately $10 imes$. Across benchmarks, agents consistently rediscover known hardware optimization patterns without domain-specific training, and the best designs often do not originate from top-ranked ILP candidates, indicating that global optimization exposes improvements missed by sub-kernel search. These results establish agent scaling as a practical and effective axis for HLS optimization.
研究の動機と目的
- 一般目的のコーディングエージェントがハードウェア固有の学習なしでハードウェア最適化を改善できるかを検討する。
- サブカーネル最適化と全体 refinements を通じてHLS設計空間を探る2段階のエージェント工場を提案する。
- エージェントのスケーリングが多様なカーネルに対するレイテンシ/面積のトレードオフにどう影響するかを定量化する。
- エージェントが発見するパターンと今後のAI支援HLS研究を導く制約を特定する。
提案手法
- ステージ1: 設計をサブカーネルに分解し、サブ機能ごとに7個の_variant_を生成、正確性を評価しレイテンシ/面積を合成、ILPを解いてエリア予算内でトップNのグローバル設定を選択。
- ステージ2: 上位ILP解に対してN人のエキスパートエージェントを起動し、pragma再結合、ループ統合、メモリ再構成などの横断的変換を実施し、合成と正確性チェックを繰り返す。
- サブカーネル最適化と設計全体の refinements の両方を捉える2段階パイプラインを使用。
- Claude Code (Opus 4.5/4.6) と AMD Vitis HLS を用いて HLS-Eval と Rodinia-HLS の12個のカーネルを評価し、レイテンシと面積を測定。

実験結果
リサーチクエスチョン
- RQ1一般目的のコーディングエージェントは、ハードウェア固有の学習なしでハードウェア設計を高位仕様から最適化できるか。
- RQ2エージェント数の増加(エージェントスケーリング)は、固定エリア予算の下でHLS設計探索とレイテンシを改善するか。
- RQ3ステージ2で発見された横断最適化は、サブカーネル除去だけでは得られない改善を生むか。
- RQ4エージェントが発見するハードウェア最適化パターンは何か、カーネル間でドメイン知識と整合しているか。
- RQ5エージェントベースのHLS最適化がうまく機能しない状況や文脈は何か。
主な発見
| Agent Scaling Step (1→2, 2→4, 4→8, 8→10) | Mean Speedup over Baseline | +Incremental Gain (%) |
|---|---|---|
| 1→2 | 5.26× | +5.9% |
| 2→4 | 5.81× | +13.5% |
| 4→8 | 7.66× | +31.8% |
| 8→10 | 8.27× | +7.9% |
- エージェントスケーリングによりレイテンシが大幅に低減され、エージェントを1から10へ増やすと平均スピードアップは8.27倍、ストリームクラスタのような難しいワークロードでは20倍超を達成。
- グローバル最適化(ステージ2)は、トップILP解から派生しない改善をしばしば見つけ、サブカーネル最適化だけでなく機能間の相互作用が重要であることを示唆。
- エージェントはARRAY_PARTITIONのようなHLS最適化パターンを繰り返し回復し、メモリと依存関係を先に解決しない限りPIPELINEを避ける、といった既知のパターンを再発見。
- 改善はデータセットとツールに依存する。提示された結果はClaude Code (Opus 4.5/4.6) と Vitis HLS on FPGA でのもので、ベンチマーク範囲とASICへの一般化には限界があることを認識。
- 多くのカーネルでレイテンシ改善のピークが中程度のエージェント数で現れ、単純なカーネルではエリア予算が厳しくなると利益が鈍化または飽和する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。