Skip to main content
QUICK REVIEW

[論文レビュー] Composer 2 Technical Report

Cursor Reseach, :|arXiv (Cornell University)|Mar 25, 2026
Software Engineering Research被引用数 0
ひとこと要約

要約: Composer 2 はエージェント的ソフトウェア工学のフロンティア水準のコーディングモデルで、継続的事前学習と非同期強化学習を通じて訓練され、CursorBench と公開ベンチマークで高いスコアを達成します。

ABSTRACT

Composer 2 is a specialized model designed for agentic software engineering. The model demonstrates strong long-term planning and coding intelligence while maintaining the ability to efficiently solve problems for interactive use. The model is trained in two phases: first, continued pretraining to improve the model's knowledge and latent coding ability, followed by large-scale reinforcement learning to improve end-to-end coding performance through stronger reasoning, accurate multi-step execution, and coherence on long-horizon realistic coding problems. We develop infrastructure to support training in the same Cursor harness that is used by the deployed model, with equivalent tools and structure, and use environments that match real problems closely. To measure the ability of the model on increasingly difficult tasks, we introduce a benchmark derived from real software engineering problems in large codebases including our own. Composer 2 is a frontier-level coding model and demonstrates a process for training strong domain-specialized models. On our CursorBench evaluations the model achieves a major improvement in accuracy compared to previous Composer models (61.3). On public benchmarks the model scores 61.7 on Terminal-Bench and 73.7 on SWE-bench Multilingual in our harness, comparable to state-of-the-art systems.

研究の動機と目的

  • ドメイン特化型コーディングモデルのスケーリング法則の理解を継続的事前学習と RL を通じて前進させる。
  • トレーニングとテストのミスマッチを減らすため、現実のソフトウェア工学タスクを反映するインフラとベンチマークを開発する。
  • 内部 CursorBench および公開 SWE ベンチマークの両方で性能向上を示す。
  • 実運用環境でのデプロイの効率とコーディング精度のバランスを示す。

提案手法

  • コーディング知識と潜在能力を向上させるため、コード中心データ混合での継続的事前学習。
  • ポリシー勾配とプロンプトごとの複数サンプルを用いた非同期強化学習によりエンドツーエンドのコーディング性能を向上。
  • 長期的タスク処理を可能にする自己要約を用いて、複数の世代生成と要約を連結して長期的な推論を実現。
  • 実世界の未指定の開発者タスクを反映し、コード品質、実行効率、対話的挙動を測定する CursorBench ベースの評価。
  • Context Parallelism、MoE のデカップリング、スケーラブルな訓練のための特殊な低精度カーネル実装を含むインフラ革新。
Figure 1: Composer 2 improves greatly from previous Composer models, achieving performance competitive with state-of-the-art models. By specializing entirely on coding ability, Composer attains such performance while being lower cost to serve than state-of-the-art model API pricing. See Section 5 fo
Figure 1: Composer 2 improves greatly from previous Composer models, achieving performance competitive with state-of-the-art models. By specializing entirely on coding ability, Composer attains such performance while being lower cost to serve than state-of-the-art model API pricing. See Section 5 fo

実験結果

リサーチクエスチョン

  • RQ1継続的事前学習がコーディングエージェントの下流の RL パフォーマンスにどのような影響を与えるか?
  • RQ2エージェント的ソフトウェア工学において、精度、レイテンシ、安定性のバランスを最もよく取るトレーニングと推論のアーキテクチャは何か?
  • RQ3自己要約と長期連鎖が、長時間にわたるコーディングタスクで過度なコンテキスト使用なしに性能を向上させるか?
  • RQ4CursorBench はエージェントの現実的なコーディングタスクを公的ベンチマークと比べてどの程度反映しているか?

主な発見

  • Composer 2 は CursorBench(61.3)で従来の Composer モデルより顕著な改善を達成し、Terminal-Bench(61.7)および SWE-bench Multilingual(73.7)で同程度のスコアを得る。
  • RL 訓練は、トレーニング中の平均パフォーマンスと最良の解の組み合わせが向上し、既知の軌道の再重み付けだけでなく正解解のより広い範囲をカバーしていることを示す。
  • 継続的事前学習は下流の RL 報酬と評価損失の減少に相関し、計画された二段階訓練戦略を裏付ける。
  • 自己要約は、トークン数を抑えつつ KV キャッシュを保持して長期的推論を効率化し、難解タスクの性能を改善する。
  • インフラは高度な並列性(Context Parallelism)、MoE のデカップリング、特殊な低精度カーネルを組み合わせ、スケーラブルな訓練と頑健な推論を可能にする。
Figure 2: Continued pretraining translates to downstream RL performance. Left: We study this relationship on a smaller Qwen model, examining checkpoints trained on a varying number of tokens. Right: The model undergoes a steady decrease in training perplexity.
Figure 2: Continued pretraining translates to downstream RL performance. Left: We study this relationship on a smaller Qwen model, examining checkpoints trained on a varying number of tokens. Right: The model undergoes a steady decrease in training perplexity.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。