QUICK REVIEW

[論文レビュー] MAGE: A Multi-Agent Engine for Automated RTL Code Generation

Y. X. Zhao, Hejia Zhang|arXiv (Cornell University)|Dec 10, 2024

Model-Driven Software Engineering Techniques被引用数 5

ひとこと要約

MAGEは、専門のエージェント、高温度サンプリング、およびVerilog状態チェックポイントデバッグ機構を用いて、自然言語からVerilog RTLコードを生成する、オープンソースのマルチエージェントシステムで、構文的および機能的正確性を高める。VerilogEvalベンチマークでのPass@1は94.8%と95.7%で、ベースラインを上回る。

ABSTRACT

The automatic generation of RTL code (e.g., Verilog) through natural language instructions has emerged as a promising direction with the advancement of large language models (LLMs). However, producing RTL code that is both syntactically and functionally correct remains a significant challenge. Existing single-LLM-agent approaches face substantial limitations because they must navigate between various programming languages and handle intricate generation, verification, and modification tasks. To address these challenges, this paper introduces MAGE, the first open-source multi-agent AI system designed for robust and accurate Verilog RTL code generation. We propose a novel high-temperature RTL candidate sampling and debugging system that effectively explores the space of code candidates and significantly improves the quality of the candidates. Furthermore, we design a novel Verilog-state checkpoint checking mechanism that enables early detection of functional errors and delivers precise feedback for targeted fixes, significantly enhancing the functional correctness of the generated RTL code. MAGE achieves a 95.7% rate of syntactic and functional correctness code generation on VerilogEval-Human 2 benchmark, surpassing the state-of-the-art Claude-3.5-sonnet by 23.3 %, demonstrating a robust and reliable approach for AI-driven RTL design workflows.

研究の動機と目的

専任エージェントにタスクを分解することで、人間のRTL設計チームの反復的で専門的な協働を模倣する。
高温度サンプリングを探索して、多様でありながら高品質な候補を生成することにより、RTLコードの品質を向上させる。
Verilog状態チェックポイントを用いた機能エラーの早期検出を可能にし、対象修正のための正確なフィードバックを提供する。
生成、テスト、評価、デバッグの別々の役割を持つマルチエージェントアーキテクチャが、単一エージェントアプローチよりも高い正確性を生むことを示す。

提案手法

テストベンチ生成、RTLコード生成、ジャッジ、デバッグの4つの専門エージェントを導入する。
カスタマイズされた文脈通信プロトコルを備えた高効率な協調ワークフローを使用する。
有望な候補をランク付けして選択するために、高温度RTL候補サンプリングとスコアリングを実装する。
Verilog状態チェックポイント機構を適用して、テキストの波形窓を抽出し、デバッグのための正確なフィードバックを提供する。
各エージェントの構文エラー修正は最大5回の反復に制限し、パイプラインを通じた反復的な改良に依存する。

実験結果

リサーチクエスチョン

RQ1Verilog RTLタスクにおいて、マルチエージェントのRTLコード生成フレームワークは単一エージェントのアプローチを上回ることができるか？
RQ2適切にランク付けされデバッグされた場合、高温度サンプリングはRTL候補の品質と多様性を向上させるか？
RQ3状態チェックポイントベースのデバッグ機構は、最終出力フィードバックと比べて、より正確で効率的なRTLバグ修正を実現するか？
RQ4専門エージェント間のタスク分配は、全体のRTL生成成功率にどのような影響を与えるか？

主な発見

MAGEはVerilogEval-Humanで94.8% Pass@1、VerilogEval-V2で95.7%を達成し、全ベースラインを上回る。
複数候補生成を伴う高温度サンプリングは、低温度設定よりRTLコード品質を向上させる。
マルチエージェント構成は、バニラおよび単一エージェント設定を上回り、アブレーション研究でPass@1が93.6%対72.4%および83.9%。
RTL状態チェックポイント機構により、デバッグエージェントは不一致をより正確に特定し、問題をより効率的に修正できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。