QUICK REVIEW
[論文レビュー] CodeR: Issue Resolving with Multi-Agent and Task Graphs
Dong Chen, Shaoxin Lin|arXiv (Cornell University)|Jun 3, 2024
Advanced Graph Neural Networks被引用数 5
ひとこと要約
CodeRは、GitHub課題を自動的に解決するマルチエージェントフレームワークを導入し、SWE-bench liteで28.33%の成功率を1件の提出で達成、ベスト記録を更新。
ABSTRACT
GitHub issue resolving recently has attracted significant attention from academia and industry. SWE-bench is proposed to measure the performance in resolving issues. In this paper, we propose CodeR, which adopts a multi-agent framework and pre-defined task graphs to Repair & Resolve reported bugs and add new features within code Repository. On SWE-bench lite, CodeR is able to solve 28.33% of issues, when submitting only once for each issue. We examine the performance impact of each design of CodeR and offer insights to advance this research direction.
研究の動機と目的
- リポジトリ規模での自動GitHub課題解決の課題を動機づけ、解決する。
- 事前定義されたタスクグラフに導かれた分離型のマルチエージェント体系を提案し、課題解決計画を実行する。
- 欠陥局在化、コード再現、およびリポジトリ編集を活用してパッチ品質と成功率を向上させる。
- タスクグラフによる事前計画が、現場での即時意思決定よりも性能を改善することを示す。
提案手法
- マネージャー、リプロデューサー、欠陥局在化、エディター、検証者の5つのエージェント役割を定義し、専門的なアクションを割り当てる。
- JSON形式のタスクグラフ計画フレームワークを導入し、課題解決計画を事前定義して厳密に実行する。
- SBFLとBM25ベースの検索を用いて多源頭の欠陥局在化を実施し、局在決定をガイドする。
- SWE-agentとAutoCodeRoverのアクションを再利用・拡張し、新たなアクションと役割固有の権限を追加して計画と実行を強化する。
- LLM生成コードの再現をテストとコード編集に組み込み、1つの提出ごとに評価するSWE-bench liteベンチマークで評価する。

実験結果
リサーチクエスチョン
- RQ1事前に定義されたタスクグラフを備えたマルチエージェントフレームワークは、自動GitHub課題解決の信頼性と性能を向上させるか。
- RQ2計画駆動型実行と欠陥局在化を統合することは、リアクティブな単一エージェント手法より優れているか。
- RQ3事前設計された計画が、SWE-bench liteにおけるパッチの正確性、コスト、成功率に与える影響はどれくらいか。
- RQ4異なるエージェント役割は、解決の有効性と資源使用にどう寄与するか。
主な発見
| Methods | Resolved (%) | Avg. Req. | Avg. Tokens/Cost |
|---|---|---|---|
| CodeR (reported) | 28.33 (85) | 30.39 | 299K/$3.09 |
| CodeR (ours) | 27.33 (82) | 30.39 | 299K/$3.09 |
| SWE-agent + GPT-4 (reported) | 18.00 (54) | ||
| Aider (reported) | 26.33 (79) | ||
| AutoCodeRover | 19.00 (57) | ||
| Explicit Patch Generation (RAG + GPT-4) | 2.67 (8) | ||
| RAG + Claude 3 Opus | 4.33 (13) | ||
| RAG + SWE-Llama 7B | 1.33 (4) | ||
| RAG + GPT-3.5 | 0.33 (1) | ||
| RAG + Claude 2 | 3.00 (9) |
- CodeRは、SWE-bench liteで1つの課題提出あたり28.33%の課題解決(85/300)を達成した。
- アブレーションにより、マルチエージェントとタスクグラフを削除すると解決率が22%から10%に低下。
- BM25とSBFLを組み合わせると、SBFL単独より欠陥局在化の精度が大幅に向上する。
- 計画ベースの事前定義タスクグラフは、SWE-agent、AutoCodeRover、Aiderとの比較で、現場の計画よりも良い性能を発揮する。
- 明示的なパッチ生成は、コードリポジトリ編集による暗黙的なパッチ生成よりも劣る。
- 欠陥局在化を統合した場合、CodeRのアブレーションは性能を低下させ、コストを増大させることが明らかで、統合的な欠陥局在化の価値を強調する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。