QUICK REVIEW

[논문 리뷰] CodeR: Issue Resolving with Multi-Agent and Task Graphs

Dong Chen, Shaoxin Lin|arXiv (Cornell University)|2024. 06. 03.

Advanced Graph Neural Networks인용 수 5

한 줄 요약

CodeR은 작업-그래프 계획이 있는 다중 에이전트 프레임워크를 도입하여 GitHub 이슈를 자동으로 해결하고, SWE-bench lite에서 새로운 최적 기록을 달성했으며 한 번의 제출에서 성공률이 28.33%에 달합니다.

ABSTRACT

GitHub issue resolving recently has attracted significant attention from academia and industry. SWE-bench is proposed to measure the performance in resolving issues. In this paper, we propose CodeR, which adopts a multi-agent framework and pre-defined task graphs to Repair & Resolve reported bugs and add new features within code Repository. On SWE-bench lite, CodeR is able to solve 28.33% of issues, when submitting only once for each issue. We examine the performance impact of each design of CodeR and offer insights to advance this research direction.

연구 동기 및 목표

저장소 규모에서의 자동화된 GitHub 이슈 해결의 도전 과제를 동기 부여하고 해결합니다.
미리 정의된 작업 그래프에 의해 안내되는 비결합형 다중 에이전트 시스템을 제안하여 이슈 해결 계획을 실행합니다.
패치 품질과 성공률을 향상시키기 위해 오류 로컬라이제이션, 코드 재생산 및 저장소 편집을 활용합니다.
작업 그래프를 이용한 사전 계획이 즉석 의사결정보다 성능을 향상시킨다는 것을 보여줍니다.

제안 방법

전문화된 행동을 가진 다섯 가지 에이전트 역할(매니저, 재생산자, 결함 로컬라이저, 에디터, 검증자)을 정의합니다.
ISSUE 해결 계획을 사전에 정의하고 엄격하게 실행하기 위한 JSON 형식의 작업 그래프 계획 프레임워크를 도입합니다.
SBFL와 BM25 기반 검색을 사용하여 다중 소스 결함 로컬라이제이션을 수행하고 로컬라이제이션 결정을 안내합니다.
SWE-agent와 AutoCodeRover의 행동을 재사용 및 확장하고 새로운 행동과 역할별 권한을 추가하여 계획 수립 및 실행을 강화합니다.
테스트 및 코드 편집을 위한 LLM-생성 코드 재생산을 포함하고, 이슈당 한 번의 제출로 SWE-bench lite 벤치마크를 평가합니다.

Figure 1: Multi-Agent framework of CodeR with task graphs.

실험 결과

연구 질문

RQ1미리 정의된 작업 그래프를 갖춘 다중 에이전트 프레임워크가 자동화된 GitHub 이슈 해결의 신뢰성과 성능을 향상시킬 수 있는가?
RQ2계획 주도 실행과 결함 로컬라이제이션의 통합이 반응적이고 단일 에이전트 접근법보다 우수한가?
RQ3사전 설계된 계획이 SWE-bench lite에서 패치 정확성, 비용, 성공률에 미치는 영향은 무엇인가?
RQ4다양한 에이전트 역할이 해결 효과와 자원 사용에 어떻게 기여하는가?

주요 결과

Methods	Resolved (%)	Avg. Req.	Avg. Tokens/Cost
CodeR (reported)	28.33 (85)	30.39	299K/$3.09
CodeR (ours)	27.33 (82)	30.39	299K/$3.09
SWE-agent + GPT-4 (reported)	18.00 (54)
Aider (reported)	26.33 (79)
AutoCodeRover	19.00 (57)
Explicit Patch Generation (RAG + GPT-4)	2.67 (8)
RAG + Claude 3 Opus	4.33 (13)
RAG + SWE-Llama 7B	1.33 (4)
RAG + GPT-3.5	0.33 (1)
RAG + Claude 2	3.00 (9)

CodeR은 SWE-bench lite에서 이슈당 한 번의 제출으로 28.33%의 이슈를 해결했습니다(85/300).
전개를 제거하면 다중 에이전트 및 작업 그래프가 제거되어 해결률이 22%에서 10%로 감소하는 것을 확인했습니다.
BM25와 SBFL의 결합은 SBFL 단독보다 결함 로컬라이제이션 정확도를 크게 향상시킵니다.
계획 기반의 사전 정의된 작업 그래프가 SWE-agent, AutoCodeRover, Aider와의 비교에서 즉석 계획보다 더 나은 성능을 보였습니다.
명시적 패치 생성을 통한 방법은 코드 저장소 편집을 통한 암시적 패치 생성에 비해 성능이 떨어집니다.
결함 로컬라이제이션이 통합되지 않은 CodeR의 제거 실험은 성능을 저하시켜 비용을 증가시키는 결과를 보여, 통합 결함 로컬라이제이션의 가치를 강조합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.