[논문 리뷰] SolAgent: A Specialized Multi-Agent Framework for Solidity Code Generation
SolAgent은 Forge를 정답성에, Slither를 보안에 활용하는 도구-강화 다중 에이전트 프레임워크로, 내부/외부 루프에서 보안적이고 정확한 Solidity 코드를 생성하며 SolEval+ 벤치마크에서 기준선을 능가합니다.
Smart contracts are the backbone of the decentralized web, yet ensuring their functional correctness and security remains a critical challenge. While Large Language Models (LLMs) have shown promise in code generation, they often struggle with the rigorous requirements of smart contracts, frequently producing code that is buggy or vulnerable. To address this, we propose SolAgent, a novel tool-augmented multi-agent framework that mimics the workflow of human experts. SolAgent integrates a extbf{dual-loop refinement mechanism}: an inner loop using the extit{Forge} compiler to ensure functional correctness, and an outer loop leveraging the extit{Slither} static analyzer to eliminate security vulnerabilities. Additionally, the agent is equipped with file system capabilities to resolve complex project dependencies. Experiments on the SolEval+ Benchmark, a rigorous suite derived from high-quality real-world projects, demonstrate that SolAgent achieves a Pass@1 rate of up to extbf{64.39\%}, significantly outperforming state-of-the-art LLMs ($\sim$25\%), AI IDEs (e.g., GitHub Copilot), and existing agent frameworks. Moreover, it reduces security vulnerabilities by up to extbf{39.77\%} compared to human-written baselines. Finally, we demonstrate that the high-quality trajectories generated by SolAgent can be used to distill smaller, open-source models, democratizing access to secure smart contract generation. We release our data and code at https://github.com/openpaperz/SolAgent.
연구 동기 및 목표
- 높은 위험의 스마트 계약에 대해 신뢰할 수 있고 안전한 Solidity 코드 생성을 필요로 한다는 점을 제시한다.
- 생성 워크플로우에 도메인 도구를 통합하는 전문화된 이중 루프 정제 프레임워크를 도입한다.
- Rigorous benchmarks를 통해 SolAgent가 일반 LLM 및 기존 에이전트 프레임워크보다 정확성 및 보안 측면에서 우수하다는 점을 입증한다.
제안 방법
- Solidity 코드를 반복적으로 정제하는 두 에이전트 시스템(Coding Agent와 Refining Agent)을 제안한다.
- 정답성과 가스 효율성 피드백을 위해 Forge를 통합한다.
- 정적 보안 분석 피드백을 위해 Slither를 통합한다.
- 프로젝트 구조와 종속성을 이해하기 위한 파일 시스템 도구를 에이전트에 제공한다.
- 수렴, 정체 또는 루프 감지가 발생하면 정제를 종료하는 동적 중지 메커니즘을 구현한다.
- 고품질 에이전트 궤적을 수집하여 더 작은 모델(Qwen3-8B)을 학습시키기 위한 워크플로우 증류를 수행한다.

실험 결과
연구 질문
- RQ1SolAgent가 Solidity 코드 생성에서 기능적 정확성, 가스 효율성 및 보안 측면에서 최첨단 LLM 및 에이전트 프레임워크를 능가할 수 있는가?
- RQ2Forge, Slither 및 파일 시스템 도구가 SolAgent의 성능에 어떤 기여를 하는가?
- RQ3에이전트 궤적을 품질 손실 없이 더 작은 오픈 소스 모델로 증류할 수 있는가?
주요 결과
- SolAgent는 SolEval+ 벤치마크에서 Pass@1이 최대 64.39%에 도달하여 일반 LLM(~25%) 및 다른 에이전트를 능가한다.
- 기본 벤치마크 전반에서 높은 컴파일 비율(90% 이상)을 달성하여 실행 가능성이 강하다는 것을 보여준다.
- Slither 주도 정제를 통해 보안 취약점이 인간이 작성한 기준선 대비 최대 39.77%까지 감소한다.
- 고품질 상호 작용 궤적은(예: Qwen3-8B와 같은) 더 작은 모델로 증류하여 효율적인 한샷 생성을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.