QUICK REVIEW

[논문 리뷰] MAGE: A Multi-Agent Engine for Automated RTL Code Generation

Y. X. Zhao, Hejia Zhang|arXiv (Cornell University)|2024. 12. 10.

Model-Driven Software Engineering Techniques인용 수 5

한 줄 요약

MAGE는 자연어에서 Verilog RTL 코드를 생성하는 오픈 소스 다중 에이전트 시스템으로, 전문 에이전트, 고온도 후보 샘플링, Verilog-상태 체크포인트링 디버깅 메커니즘을 사용하여 높은 구문적 및 기능적 정확성을 달성합니다. VerilogEval 벤치마크에서 Pass@1이 94.8%와 95.7%로 기준선을 능가합니다.

ABSTRACT

The automatic generation of RTL code (e.g., Verilog) through natural language instructions has emerged as a promising direction with the advancement of large language models (LLMs). However, producing RTL code that is both syntactically and functionally correct remains a significant challenge. Existing single-LLM-agent approaches face substantial limitations because they must navigate between various programming languages and handle intricate generation, verification, and modification tasks. To address these challenges, this paper introduces MAGE, the first open-source multi-agent AI system designed for robust and accurate Verilog RTL code generation. We propose a novel high-temperature RTL candidate sampling and debugging system that effectively explores the space of code candidates and significantly improves the quality of the candidates. Furthermore, we design a novel Verilog-state checkpoint checking mechanism that enables early detection of functional errors and delivers precise feedback for targeted fixes, significantly enhancing the functional correctness of the generated RTL code. MAGE achieves a 95.7% rate of syntactic and functional correctness code generation on VerilogEval-Human 2 benchmark, surpassing the state-of-the-art Claude-3.5-sonnet by 23.3 %, demonstrating a robust and reliable approach for AI-driven RTL design workflows.

연구 동기 및 목표

인간 RTL 설계 팀의 반복적이고 전문화된 협업을 모방하여 작업을 전담 에이전트 간에 분해한다.
다양하고도 고품질의 후보를 생성하기 위해 고온도 샘플링을 탐색하여 RTL 코드 품질을 향상시킨다.
Verilog-상태 체크포인트를 통해 기능적 오류의 조기 탐지를 가능하게 하고 대상 수정에 대한 정확한 피드백을 제공한다.
생성, 테스트, 판단, 디버깅 역할이 분리된 다중 에이전트 아키텍처가 단일 에이전트 접근법보다 더 높은 정확성을 가져온다는 것을 입증한다.

제안 방법

테스트벤치 생성을 위한 4개의 전문 에이전트, RTL 코드 생성 에이전트, 심판 에이전트, 디버그 에이전트의 도입.
맞춤형 맥락 커뮤니케이션 프로토콜을 갖춘 고효율 협업 워크플로우를 사용한다.
고온도 RTL 후보 샘플링 및 점수 매기기를 구현하여 유망한 후보를 순위 매기고 선택한다.
Verilog-상태 체크포인트링 메커니즘을 적용해 텍스트 웨이브폼 윈도우를 추출하고 디버깅을 위한 정확한 피드백을 제공한다.
구문 오류 수정을 위한 각 에이전트의 반복 횟수를 최대 5회로 제한하고 파이프라인을 통한 반복 정제를 신뢰한다.

실험 결과

연구 질문

RQ1다중 에이전트 RTL 코드 생성 프레임워크가 Verilog RTL 작업에서 단일 에이전트 접근법보다 성능을 뛰어넘을 수 있는가?
RQ2고온도 샘플링이 적절히 순위 매기고 디버그될 때 RTL 후보의 품질과 다양성을 향상시키는가?
RQ3상태 체크포인트 기반 디버깅 메커니즘이 최종 출력 피드백과 비교했을 때 더 정확하고 효율적인 RTL 버그 수정이 가능하게 하는가?
RQ4전문화된 에이전트 간 작업 분배가 전체 RTL 생성 성공률에 어떤 영향을 미친가?

주요 결과

MAGE는 VerilogEval-Human에서 94.8% Pass@1, VerilogEval-V2에서 95.7%를 달성하며 모든 베이스라인을 능가한다.
다중 후보 생성으로 고온도 샘플링이 저온도 설정보다 RTL 코드 품질을 향상시킨다.
다중 에이전트 구성이 일반형 및 단일 에이전트 구성보다 우수하며 ablation 연구에서 Pass@1이 93.6% 대 72.4% 및 83.9%에 이른다.
RTL 상태 체크포인트 메커니즘은 디버그 에이전트가 불일치를 더 정확하게 식별하고 문제를 더 효율적으로 수정하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.