[論文レビュー] SolAgent: A Specialized Multi-Agent Framework for Solidity Code Generation
SolAgentはツール拡張型のマルチエージェントフレームワークで、正確性にはForge、セキュリティにはSlitherを内側/外側ループで活用し、SolEval+ベンチマークでベースラインを上回る安全で正確なSolidityコードを生成する。
Smart contracts are the backbone of the decentralized web, yet ensuring their functional correctness and security remains a critical challenge. While Large Language Models (LLMs) have shown promise in code generation, they often struggle with the rigorous requirements of smart contracts, frequently producing code that is buggy or vulnerable. To address this, we propose SolAgent, a novel tool-augmented multi-agent framework that mimics the workflow of human experts. SolAgent integrates a \textbf{dual-loop refinement mechanism}: an inner loop using the \textit{Forge} compiler to ensure functional correctness, and an outer loop leveraging the \textit{Slither} static analyzer to eliminate security vulnerabilities. Additionally, the agent is equipped with file system capabilities to resolve complex project dependencies. Experiments on the SolEval+ Benchmark, a rigorous suite derived from high-quality real-world projects, demonstrate that SolAgent achieves a Pass@1 rate of up to \textbf{64.39\%}, significantly outperforming state-of-the-art LLMs ($\sim$25\%), AI IDEs (e.g., GitHub Copilot), and existing agent frameworks. Moreover, it reduces security vulnerabilities by up to \textbf{39.77\%} compared to human-written baselines. Finally, we demonstrate that the high-quality trajectories generated by SolAgent can be used to distill smaller, open-source models, democratizing access to secure smart contract generation. We release our data and code at https://github.com/openpaperz/SolAgent.
研究の動機と目的
- 高リスクなスマートコントラクトを前提とした信頼性が高く安全なSolidityコード生成の必要性を動機づける。
- 生成ワークフローに領域ツールを統合した特化型の二重ループリファインメントフレームワークを導入する。
- SolAgentが一般的なLLMsや既存のエージェントフレームワークより正確性と安全性で優れていることを厳密なベンチマークを通じて示す。
提案手法
- Solidityコードを反復的に精錬する二エージェントシステム(Coding AgentとRefining Agent)を提案する。
- 正確性とガス効率のフィードバックのためにForgeを統合する。
- 静的セキュリティ分析のフィードバックのためにSlitherを統合する。
- プロジェクト構成と依存関係を理解するためのファイルシステムツールをエージェントに装備する。
- 収束、停滞、ループ検出時にリファインメントを終了する動的停止機構を実装する。
- 高品質なエージェント軌跡を収集して小型モデル(Qwen3-8B)を訓練するワークフロード・ディスティレーションを実施する。

実験結果
リサーチクエスチョン
- RQ1SolAgentはSolidityコード生成の機能的正確性、ガス効率、セキュリティにおいて最先端のLLMsやエージェントフレームワークを上回れるか。
- RQ2Forge、Slither、ファイルシステムツールがSolAgentの性能に与える寄与は何か。
- RQ3エージェント軌跡を品質を損なうことなくより小さなオープンソースモデルへディスティルできるか。
主な発見
- SolAgentはSolEval+ベンチマークでPass@1が最大64.39%に達し、通常のLLMs(約25%)や他のエージェントを上回る。
- ベースライン全体で高いコンパイル率(90%以上)を達成し、実行可能性が高いことを示す。
- Slitherによるリファインメントの結果、人間が書いたベースラインと比較してセキュリティ脆弱性を最大39.77%低減。
- 高品質な相互作用軌跡を用いて、より小さなモデル(例:Qwen3-8B)へ一回の生成性を効率的に蒸留できる。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。