[논문 리뷰] SWE-QA-Pro: A Representative Benchmark and Scalable Training Recipe for Repository-Level Code Understanding
SWE-QA-Pro는 이 벤치마크에서 이슈 주도 토픽과 실행 가능한 리포지토리로 구성된 리포지토리 수준 QA 벤치마크를 도입하고, SFT 후 RLAIF의 2단계 에이전트적 학습 레시피를 통해 작은 오픈 모델이 GPT-4o를 포함한 여러 강력한 베이스라인을 능가할 수 있게 한다.
Agentic repository-level code understanding is essential for automating complex software engineering tasks, yet the field lacks reliable benchmarks. Existing evaluations often overlook the long tail topics and rely on popular repositories where Large Language Models (LLMs) can cheat via memorized knowledge. To address this, we introduce SWE-QA-Pro, a benchmark constructed from diverse, long-tail repositories with executable environments. We enforce topical balance via issue-driven clustering to cover under-represented task types and apply a rigorous difficulty calibration process: questions solvable by direct-answer baselines are filtered out. This results in a dataset where agentic workflows significantly outperform direct answering (e.g., a ~13-point gap for Claude Sonnet 4.5), confirming the necessity of agentic codebase exploration. Furthermore, to tackle the scarcity of training data for such complex behaviors, we propose a scalable synthetic data pipeline that powers a two-stage training recipe: Supervised Fine-Tuning (SFT) followed by Reinforcement Learning from AI Feedback (RLAIF). This approach allows small open models to learn efficient tool usage and reasoning. Empirically, a Qwen3-8B model trained with our recipe surpasses GPT-4o by 2.3 points on SWE-QA-Pro and substantially narrows the gap to state-of-the-art proprietary models, demonstrating both the validity of our evaluation and the effectiveness of our agentic training workflow.
연구 동기 및 목표
- memorized 지식보다 도구 사용 및 코드베이스 탐색을 강조하는 리포지토리 수준 QA 벤치마크의 필요성에 동기를 부여한다.
- 실행 가능한 환경을 갖춘 다양한 롱테일 리포지토리로 SWE-QA-Pro를 구성하여 저대표된 작업 유형을 포괄한다.
- 직접적인 답변으로 해결 가능한 문제를 필터링하고 진정한 에이전트적 추론이 필요하도록 난이도를 보정한다.
- 작은 오픈 모델이 리포지토리 기반 도구 사용 및 추론을 학습하도록 하는 2단계 학습 레시피(SFT 후 RLAIF)를 제안한다.
- 에이전트적 학습이 직접 정답 베이스라인보다 성능을 향상시키고 최첨단 모델과의 격차를 좁히는지 입증한다.
제안 방법
- 3,468개 리포지토리에서 1.7M 이슈를 이슈 주도 클러스터링으로 구성한 후 주제별 인간 기반 QA를 도구를 활용한 초안 작성 및 검증과 함께 수행한다.
- 직접 답변 베이스라인과 도구 사용 실행 간의 비교를 통해 사소하게 해결 가능한 항목을 제거하는 다단계 필터링/난이도 보정을 적용한다.
- 각 항목에 대해 끝까지 탐색이 가능하도록 SWE-Rebench의 실행 가능한 샌드박스를 제공한다.
- Claude Code 보조 생성을 통해 1,464개의 학습 질문과 평가를 위한 26개 리포지토리 커버리지를 생성한다.
- 도구 호출 경로에 대한 감독 학습(SFT)으로 작은 모델을 학습시키고, 이후 AI 피드백(RLAIF)으로 채점자 기반 보상을 사용해 정확성과 근거를 강조한다.
- 명시적 파일 경로/행 번호 참조와 별도의 평가 채점자를 포함하는 엄격하게 설계된 LLM-채점자 프로토콜로 평가한다.

실험 결과
연구 질문
- RQ1롱테일 실행 가능 리포지토리로 구축된 벤치마크의 다양성 및 커버리지는 리포지토리 수준 QA에서 어떻게 나타나는가?
- RQ2도구 사용 상호작용을 강제하는 것이 직접 지식에 대한 대답이 아닌 경우 어떤 성능 차이를 초래하여 리포지토리 추론의 진정성을 반영하는가?
- RQ3SFT → RLAIF로 구성된 확장 가능한 에이전트 학습 파이프라인이 리포지토리 기반 QA에서 지식만 사용하는 베이스라인을 능가하도록 작은 오픈 모델을 학습시킬 수 있는가?
- RQ4SWE-QA-Pro에서 에이전트 학습이 최첨단 독점 모델과의 격차를 얼마나 좁힐 수 있는가?
- RQ5모델의 도구 사용 능력과 다파일 추론의 질적 강점/약점은 도구 사용의 빈도보다 어떤 측면에서 중요한가?
주요 결과
- 직접 답변 베이스라인과 에이전트 기반 추론 사이에 상당한 성능 차이가 존재하며, 리포지토리 탐색의 필요성을 입증한다.
- SFT→RLAIF 레시피로 학습된 Qwen3-8B 모델은 SWE-QA-Pro에서 GPT-4o를 능가하고 독점 모델과의 격차를 줄인다.
- 에이전트적 워크플로우는 사전 구축된 인덱스 없이도 도구를 활용한 반복적 탐색을 가능하게 하며, 검색에 의존하는 많은 벤치마크를 능가한다.
- SFT 이후 RL 학습은 SFT 데이터 증가만으로 얻는 것보다 정합성과 완전성에서 더 큰 이득을 준다.
- Claude Sonnet 4.5가 가장 높은 전체 점수를 달성하며 SWE-QA-Pro-8B(SFT) 및 RL 결합 모델이 더 큰 에이전트적 모델의 성능에 근접한다.
- 도구 사용의 효율성은 도구 호출 수의 증가가 아니라 도구를 얼마나 효과적으로 사용하고 근거를 바탕으로 추론하는지가 점수에 영향을 준다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.