[論文レビュー] SWE-QA-Pro: A Representative Benchmark and Scalable Training Recipe for Repository-Level Code Understanding
SWE-QA-Pro は、長尾の実行可能なリポジトリを用いた課題主導トピックと、2段階のエージェント訓練レシピ(SFT の後に RLAIF)を組み合わせたリポジトリレベルのQAベンチマークを紹介し、小型のオープンモデルがこのベンチマークで複数の強力なベースライン(GPT-4o を含む)を上回るようになる。
Agentic repository-level code understanding is essential for automating complex software engineering tasks, yet the field lacks reliable benchmarks. Existing evaluations often overlook the long tail topics and rely on popular repositories where Large Language Models (LLMs) can cheat via memorized knowledge. To address this, we introduce SWE-QA-Pro, a benchmark constructed from diverse, long-tail repositories with executable environments. We enforce topical balance via issue-driven clustering to cover under-represented task types and apply a rigorous difficulty calibration process: questions solvable by direct-answer baselines are filtered out. This results in a dataset where agentic workflows significantly outperform direct answering (e.g., a ~13-point gap for Claude Sonnet 4.5), confirming the necessity of agentic codebase exploration. Furthermore, to tackle the scarcity of training data for such complex behaviors, we propose a scalable synthetic data pipeline that powers a two-stage training recipe: Supervised Fine-Tuning (SFT) followed by Reinforcement Learning from AI Feedback (RLAIF). This approach allows small open models to learn efficient tool usage and reasoning. Empirically, a Qwen3-8B model trained with our recipe surpasses GPT-4o by 2.3 points on SWE-QA-Pro and substantially narrows the gap to state-of-the-art proprietary models, demonstrating both the validity of our evaluation and the effectiveness of our agentic training workflow.
研究の動機と目的
- ツールの使用とコードベースの探索を重視し、 memorized knowledge には依存しないリポジトリレベルのQA ベンチマークの必要性を説く。
- 実行環境を含む多様な長尾リポジトリから SWE-QA-Pro を構築し、表現されにくいタスクタイプをカバーする。
- 直接的回答で解ける問題を除外し、真のエージェント的推論が要求されるよう難易度を調整する。
- 小型のオープンモデルがリポジトリに基づくツール使用と推論を学べるよう、2 段階の訓練レシピ(SFT → RLAIF)を提案する。
- エージェント訓練が直接回答ベースラインを超える性能を発揮し、最先端モデルとの差を縮小することを示す。
提案手法
- 3,468 リポジトリにまたがる 1.7M の課題を問題駆動型クラスタリングでベンチマークを構築し、各トピックでツールを有効化したドラフトと検証を伴う人間によるQA を行う。
- 直接回答のベースラインとツール使用を伴う実行結果を比較する多段階フィルタリング/難易度キャリブレーションを用い、易過ぎる項目を除外する。
- 各項目のエンドツーエンド探索を保証する SWE-Rebench からの実行可能サンドボックスを提供する。
- Claude Code 付き生成で訓練データを合成し、1,464 問題と評価のための 26 リポジトリのカバレッジを作成する。
- ツール呼び出し軌跡に対する教師付き微調整(SFT)から、正確さと grounding を重視した judge ベースの報酬を用いる RLAIF の2 段階レシピで小型モデルを訓練する。
- 厳密に設計された LLM-as-Judge プロトコルで評価を行い、明示的なファイルパス/行番号の参照と別個の評価 judge を含む。

実験結果
リサーチクエスチョン
- RQ1長尾の実行可能リポジトリから構築されたベンチマークの多様性とリポジトリレベル QA のカバー率はどの程度か。
- RQ2ツール使用の対話を強制する(知識の直接回答ではなく)ことで、リポジトリ推論を反映した測定可能な性能ギャップが生じるか。
- RQ3スケーラブルなエージェント訓練パイプライン(SFT → RLAIF)が、リポジトリ基づくQA で知識のみのベースラインを上回るように小型のオープンモデルを訓練できるか。
- RQ4SWE-QA-Pro に対するエージェント訓練が、最先端のプロプライエタリモデルとの差をどこまで縮められるか。
- RQ5モデルのツール使用の有効性と複数ファイル推論の質的な長所・短所は、リポジトリクラスター全体でどう現れるか。
主な発見
- 直接回答ベースラインとエージェントベース推論の間には、SWE-QA-Pro 上で大きな性能ギャップが存在し、リポジトリ探索の必然性を示している。
- SFT→RLAIF レシピで訓練した Qwen3-8B モデルは SWE-QA-Pro で GPT-4o を上回り、プロプライエタリモデルとの差を縮める。
- エージェント的ワークフローは前提となるインデックスなしでも反復的なツール有効探索を可能にし、取得に依存する多くのベースラインを上回る。
- SFT 後の RL による訓練は、正確さと完全性の向上を、単に SFT データを増やすより大きく促す。
- Claude Sonnet 4.5 は総合スコアが最も高く、SWE-QA-Pro-8B(SFT)/(SFT+RL) は Devstral-Small-2-24B-Instruct などの大規模なエージェントモデルの性能に近づく。
- ツール使用の有効性は重要で、より効果的なツール使用と grounding 推論を行うモデルほど高いスコアを達成し、単にツール呼び出し回数が多いだけではない。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。