Skip to main content
QUICK REVIEW

[논문 리뷰] CodeR: Issue Resolving with Multi-Agent and Task Graphs

Dong Chen, Shaoxin Lin|arXiv (Cornell University)|2024. 06. 03.
Advanced Graph Neural Networks인용 수 5
한 줄 요약

CodeR은 작업-그래프 계획이 있는 다중 에이전트 프레임워크를 도입하여 GitHub 이슈를 자동으로 해결하고, SWE-bench lite에서 새로운 최적 기록을 달성했으며 한 번의 제출에서 성공률이 28.33%에 달합니다.

ABSTRACT

GitHub issue resolving recently has attracted significant attention from academia and industry. SWE-bench is proposed to measure the performance in resolving issues. In this paper, we propose CodeR, which adopts a multi-agent framework and pre-defined task graphs to Repair & Resolve reported bugs and add new features within code Repository. On SWE-bench lite, CodeR is able to solve 28.33% of issues, when submitting only once for each issue. We examine the performance impact of each design of CodeR and offer insights to advance this research direction.

연구 동기 및 목표

  • 저장소 규모에서의 자동화된 GitHub 이슈 해결의 도전 과제를 동기 부여하고 해결합니다.
  • 미리 정의된 작업 그래프에 의해 안내되는 비결합형 다중 에이전트 시스템을 제안하여 이슈 해결 계획을 실행합니다.
  • 패치 품질과 성공률을 향상시키기 위해 오류 로컬라이제이션, 코드 재생산 및 저장소 편집을 활용합니다.
  • 작업 그래프를 이용한 사전 계획이 즉석 의사결정보다 성능을 향상시킨다는 것을 보여줍니다.

제안 방법

  • 전문화된 행동을 가진 다섯 가지 에이전트 역할(매니저, 재생산자, 결함 로컬라이저, 에디터, 검증자)을 정의합니다.
  • ISSUE 해결 계획을 사전에 정의하고 엄격하게 실행하기 위한 JSON 형식의 작업 그래프 계획 프레임워크를 도입합니다.
  • SBFL와 BM25 기반 검색을 사용하여 다중 소스 결함 로컬라이제이션을 수행하고 로컬라이제이션 결정을 안내합니다.
  • SWE-agent와 AutoCodeRover의 행동을 재사용 및 확장하고 새로운 행동과 역할별 권한을 추가하여 계획 수립 및 실행을 강화합니다.
  • 테스트 및 코드 편집을 위한 LLM-생성 코드 재생산을 포함하고, 이슈당 한 번의 제출로 SWE-bench lite 벤치마크를 평가합니다.
Figure 1: Multi-Agent framework of CodeR with task graphs.
Figure 1: Multi-Agent framework of CodeR with task graphs.

실험 결과

연구 질문

  • RQ1미리 정의된 작업 그래프를 갖춘 다중 에이전트 프레임워크가 자동화된 GitHub 이슈 해결의 신뢰성과 성능을 향상시킬 수 있는가?
  • RQ2계획 주도 실행과 결함 로컬라이제이션의 통합이 반응적이고 단일 에이전트 접근법보다 우수한가?
  • RQ3사전 설계된 계획이 SWE-bench lite에서 패치 정확성, 비용, 성공률에 미치는 영향은 무엇인가?
  • RQ4다양한 에이전트 역할이 해결 효과와 자원 사용에 어떻게 기여하는가?

주요 결과

MethodsResolved (%)Avg. Req.Avg. Tokens/Cost
CodeR (reported)28.33 (85)30.39299K/$3.09
CodeR (ours)27.33 (82)30.39299K/$3.09
SWE-agent + GPT-4 (reported)18.00 (54)
Aider (reported)26.33 (79)
AutoCodeRover19.00 (57)
Explicit Patch Generation (RAG + GPT-4)2.67 (8)
RAG + Claude 3 Opus4.33 (13)
RAG + SWE-Llama 7B1.33 (4)
RAG + GPT-3.50.33 (1)
RAG + Claude 23.00 (9)
  • CodeR은 SWE-bench lite에서 이슈당 한 번의 제출으로 28.33%의 이슈를 해결했습니다(85/300).
  • 전개를 제거하면 다중 에이전트 및 작업 그래프가 제거되어 해결률이 22%에서 10%로 감소하는 것을 확인했습니다.
  • BM25와 SBFL의 결합은 SBFL 단독보다 결함 로컬라이제이션 정확도를 크게 향상시킵니다.
  • 계획 기반의 사전 정의된 작업 그래프가 SWE-agent, AutoCodeRover, Aider와의 비교에서 즉석 계획보다 더 나은 성능을 보였습니다.
  • 명시적 패치 생성을 통한 방법은 코드 저장소 편집을 통한 암시적 패치 생성에 비해 성능이 떨어집니다.
  • 결함 로컬라이제이션이 통합되지 않은 CodeR의 제거 실험은 성능을 저하시켜 비용을 증가시키는 결과를 보여, 통합 결함 로컬라이제이션의 가치를 강조합니다.
Figure 2: Task graphs in JSON format.
Figure 2: Task graphs in JSON format.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.