QUICK REVIEW

[論文レビュー] Hybrid-Gym: Training Coding Agents to Generalize Across Tasks

Yiqing Xie, Emmy Liu|arXiv (Cornell University)|Feb 18, 2026

Software Engineering Research被引用数 0

ひとこと要約

Hybrid-Gym は、実行可能リポジトリを必要とせず、コーディングエージェントの合成 multitask 学習タスクのスケーラブルなセットを導入し、実世界のコーディングベンチマークへの強い転移を可能にする。SWE-Bench、SWT-Bench、Commit-0 での一般化を向上させ、イン-domain データを補完する。

ABSTRACT

When assessing the quality of coding agents, predominant benchmarks focus on solving single issues on GitHub, such as SWE-Bench. In contrast, in real use, these agents solve more various and complex tasks that involve other skills such as exploring codebases, testing software, and designing architecture. In this paper, we first characterize some transferable skills that are shared across diverse tasks by decomposing trajectories into fine-grained components, and derive a set of principles for designing auxiliary training tasks to teach language models these skills. Guided by these principles, we propose a training environment, Hybrid-Gym, consisting of a set of scalable synthetic tasks, such as function localization and dependency search. Experiments show that agents trained on our synthetic tasks effectively generalize to diverse real-world tasks that are not present in training, improving a base model by 25.4% absolute gain on SWE-Bench Verified, 7.9% on SWT-Bench Verified, and 5.1% on Commit-0 Lite. Hybrid-Gym also complements datasets built for the downstream tasks (e.g., improving SWE-Play by 4.9% on SWT-Bench Verified). Code available at: https://github.com/yiqingxyq/Hybrid-Gym.

研究の動機と目的

実世界のコーディングタスクに共通する要素と能力（推論、リポジトリ探索、実装など）を特定する。
複雑な実行環境を必要とせず、これらの要素を教えるスケーラブルな訓練タスクを設計する。
Hybrid-Gym で訓練されたエージェントを複数の下流コーディングベンチマークへ転移させることを示す。
異なるタスク設計とデータ選択が転移性と性能にどのように影響するかを示す。

提案手法

実世界のコーディングタスクを中間要素に分解する：推論、リポジトリ探索、実行、実装、検証。
下流タスクの形式に Output を合わせるためのタスク設計原則を導出する。リポジトリ探索を含み、非自明な推論を要求し、重い環境設定を避ける。
これらの原則を満たす 4 つの Hybrid-Gym タスク（関数ローカライズ、問題ローカライズ、依存関係検索、関数生成）を作成する。
Hybrid-Gym でコーディングエージェント（例: Qwen2.5Coder 系）を訓練し、SWE-Bench、SWT-Bench、Commit-0 への転移を下流タスクの微調整なしで評価する。
出力形式、リポジトリ探索、軌道の複雑さ、教師-生徒蒸留ダイナミクス、リポジトリの多様性が転移性能に与える影響を分析するアブレーションと統制実験を実施する。

Figure 1 : ( Left ) We decompose general coding agent tasks into a set of intermediate components and compute the percentage of agent actions spent on each component. Our training tasks partially cover verification and fully cover reasoning, repository exploration, and implementation, which consist

実験結果

リサーチクエスチョン

RQ1RQ1: 実世界のコーディングタスクの背後にある共通の中間要素は何で、エージェントの行動はこれらの要素にどう対応するか？
RQ2RQ2: どのような訓練タスク設計が、さまざまな下流タスクへコーディングエージェントの効果的な転移を可能にするか？
RQ3RQ3: どの要因（出力形式、リポジトリ探索、推論の複雑さ、軌道長、教師モデル）が転移性能に最も影響を与えるか？
RQ4RQ4: Hybrid-Gym は、複数のベンチマーク間での一般化を促進する点で既存のタスク転送データセットと比較してどうか？

主な発見

Hybrid-Gym で訓練されたエージェントは、下流タスクデータなしで三つの実世界タスク（SWE-Bench、SWT-Bench、Commit-0）へ強い転移を示し、ベースラインモデルを実質的な絶対的利益で改善する。
下流タスクでのエージェントの多くの行動は推論、リポジトリ探索、実装を含み、リポジトリ探索コマンド（grep、find、cd、ls）はタスク間で高い転送性を示す。
下流のパッチ風の編集を模した出力が重要であり、パッチ作成アクションを削除すると SWE-Bench の性能が大幅に低下する。
多様なリポジトリで訓練する（高いリポジトリ多様性）は、評価リポジトリを memorization するのではなく、未知のコードベースへの一般化を高める。
より長く複雑な軌道と指示が豊富な教師データは転移を改善する一方、スクリプトレベルのタスクだけではリポジトリレベルのタスクへ一般化しない。

Figure 2 : Scaling law analysis. Performance on SWE-bench Verified improves consistently as training data size increases from around 5% (250 trajectories) to 100% (4.4k trajectories).

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。