[논문 리뷰] CodeR: Issue Resolving with Multi-Agent and Task Graphs
CodeR은 작업-그래프 계획이 있는 다중 에이전트 프레임워크를 도입하여 GitHub 이슈를 자동으로 해결하고, SWE-bench lite에서 새로운 최적 기록을 달성했으며 한 번의 제출에서 성공률이 28.33%에 달합니다.
GitHub issue resolving recently has attracted significant attention from academia and industry. SWE-bench is proposed to measure the performance in resolving issues. In this paper, we propose CodeR, which adopts a multi-agent framework and pre-defined task graphs to Repair & Resolve reported bugs and add new features within code Repository. On SWE-bench lite, CodeR is able to solve 28.33% of issues, when submitting only once for each issue. We examine the performance impact of each design of CodeR and offer insights to advance this research direction.
연구 동기 및 목표
- 저장소 규모에서의 자동화된 GitHub 이슈 해결의 도전 과제를 동기 부여하고 해결합니다.
- 미리 정의된 작업 그래프에 의해 안내되는 비결합형 다중 에이전트 시스템을 제안하여 이슈 해결 계획을 실행합니다.
- 패치 품질과 성공률을 향상시키기 위해 오류 로컬라이제이션, 코드 재생산 및 저장소 편집을 활용합니다.
- 작업 그래프를 이용한 사전 계획이 즉석 의사결정보다 성능을 향상시킨다는 것을 보여줍니다.
제안 방법
- 전문화된 행동을 가진 다섯 가지 에이전트 역할(매니저, 재생산자, 결함 로컬라이저, 에디터, 검증자)을 정의합니다.
- ISSUE 해결 계획을 사전에 정의하고 엄격하게 실행하기 위한 JSON 형식의 작업 그래프 계획 프레임워크를 도입합니다.
- SBFL와 BM25 기반 검색을 사용하여 다중 소스 결함 로컬라이제이션을 수행하고 로컬라이제이션 결정을 안내합니다.
- SWE-agent와 AutoCodeRover의 행동을 재사용 및 확장하고 새로운 행동과 역할별 권한을 추가하여 계획 수립 및 실행을 강화합니다.
- 테스트 및 코드 편집을 위한 LLM-생성 코드 재생산을 포함하고, 이슈당 한 번의 제출로 SWE-bench lite 벤치마크를 평가합니다.

실험 결과
연구 질문
- RQ1미리 정의된 작업 그래프를 갖춘 다중 에이전트 프레임워크가 자동화된 GitHub 이슈 해결의 신뢰성과 성능을 향상시킬 수 있는가?
- RQ2계획 주도 실행과 결함 로컬라이제이션의 통합이 반응적이고 단일 에이전트 접근법보다 우수한가?
- RQ3사전 설계된 계획이 SWE-bench lite에서 패치 정확성, 비용, 성공률에 미치는 영향은 무엇인가?
- RQ4다양한 에이전트 역할이 해결 효과와 자원 사용에 어떻게 기여하는가?
주요 결과
| Methods | Resolved (%) | Avg. Req. | Avg. Tokens/Cost |
|---|---|---|---|
| CodeR (reported) | 28.33 (85) | 30.39 | 299K/$3.09 |
| CodeR (ours) | 27.33 (82) | 30.39 | 299K/$3.09 |
| SWE-agent + GPT-4 (reported) | 18.00 (54) | ||
| Aider (reported) | 26.33 (79) | ||
| AutoCodeRover | 19.00 (57) | ||
| Explicit Patch Generation (RAG + GPT-4) | 2.67 (8) | ||
| RAG + Claude 3 Opus | 4.33 (13) | ||
| RAG + SWE-Llama 7B | 1.33 (4) | ||
| RAG + GPT-3.5 | 0.33 (1) | ||
| RAG + Claude 2 | 3.00 (9) |
- CodeR은 SWE-bench lite에서 이슈당 한 번의 제출으로 28.33%의 이슈를 해결했습니다(85/300).
- 전개를 제거하면 다중 에이전트 및 작업 그래프가 제거되어 해결률이 22%에서 10%로 감소하는 것을 확인했습니다.
- BM25와 SBFL의 결합은 SBFL 단독보다 결함 로컬라이제이션 정확도를 크게 향상시킵니다.
- 계획 기반의 사전 정의된 작업 그래프가 SWE-agent, AutoCodeRover, Aider와의 비교에서 즉석 계획보다 더 나은 성능을 보였습니다.
- 명시적 패치 생성을 통한 방법은 코드 저장소 편집을 통한 암시적 패치 생성에 비해 성능이 떨어집니다.
- 결함 로컬라이제이션이 통합되지 않은 CodeR의 제거 실험은 성능을 저하시켜 비용을 증가시키는 결과를 보여, 통합 결함 로컬라이제이션의 가치를 강조합니다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.