[논문 리뷰] Composer 2 Technical Report
Composer 2는 에이전틱 소프트웨어 엔지니어링을 위한 최전선 수준의 코딩 모델로, 지속적 사전학습과 비동기 강화학습을 통해 훈련되었으며, CursorBench와 공개 벤치마크에서 강한 성과를 달성한다.
Composer 2 is a specialized model designed for agentic software engineering. The model demonstrates strong long-term planning and coding intelligence while maintaining the ability to efficiently solve problems for interactive use. The model is trained in two phases: first, continued pretraining to improve the model's knowledge and latent coding ability, followed by large-scale reinforcement learning to improve end-to-end coding performance through stronger reasoning, accurate multi-step execution, and coherence on long-horizon realistic coding problems. We develop infrastructure to support training in the same Cursor harness that is used by the deployed model, with equivalent tools and structure, and use environments that match real problems closely. To measure the ability of the model on increasingly difficult tasks, we introduce a benchmark derived from real software engineering problems in large codebases including our own. Composer 2 is a frontier-level coding model and demonstrates a process for training strong domain-specialized models. On our CursorBench evaluations the model achieves a major improvement in accuracy compared to previous Composer models (61.3). On public benchmarks the model scores 61.7 on Terminal-Bench and 73.7 on SWE-bench Multilingual in our harness, comparable to state-of-the-art systems.
연구 동기 및 목표
- 지속적 사전학습과 RL를 통해 도메인 특화 코딩 모델의 스케일링 법칙에 대한 이해를 증진한다.
- 현실 세계 소프트웨어 엔지니어링 작업을 반영하는 인프라와 벤치마크를 개발하여 train-test 불일치를 줄인다.
- 내부 CursorBench와 공용 SWE 벤치마크 모두에서 성능 향상을 입증한다.
- 생산 환경에서 코딩 정확도와 효율적인 배포 사이의 균형을 보여준다.
제안 방법
- 대규모 코드 주도 데이터 혼합에 대한 지속적 사전학습으로 코딩 지식과 잠재 능력을 향상시킨다.
- 프롬프트당 정책 그래디언트와 다중 샘플을 이용한 비동기 강화학습으로 엔드 투 엔드 코딩 성능을 개선한다.
- 요약을 통한 자가 요약으로 요약과 함께 다중 생성 결과를 연결하여 긴 시간 지향 작업 처리를 가능하게 한다.
- 실제 세계의 불충분하게 명시된 개발자 작업을 반영하고 코드 품질, 실행 효율성 및 인터랙티브 동작을 측정하는 CursorBench 기반 평가.
- 확장 가능한 학습을 위한 Context Parallelism, 분리된 MoE 설계, 특수 양자화 및 커널 구현 등 인프라 혁신.

실험 결과
연구 질문
- RQ1지속적 사전학습이 코딩 에이전트의 다운스트림 RL 성능에 어떤 영향을 미치는가?
- RQ2어떤 학습 및 추론 아키텍처가 에이전틱 소프트웨어 엔지니어링에서 정확도, 대기시간, 안정성을 가장 잘 균형 잡나?
- RQ3자가 요약과 긴 호라이즌 체이닝이 과도한 컨텍스트 사용 없이 확장된 코딩 작업의 성능을 개선할 수 있는가?
- RQ4CursorBench가 에이전트의 실제 세계 코딩 작업을 반영하는 공개 벤치마크와 어떻게 비교될 수 있는가?
주요 결과
- Composer 2는 CursorBench에서 이전 Composer 모델들에 비해 뚜렷한 향상을 달성하고(61.3), Terminal-Bench(61.7) 및 SWE-bench Multilingual(73.7)에서 유사한 점수를 달성한다.
- RL 훈련은 학습 중 평균 성능과 Best-of-K 성능이 모두 향상되며, 알려진 궤적의 재가중이 아니라 더 폭넓은 올바른 해의 커버리지를 시사한다.
- 지속적 사전학습은 다운스트림 RL 보상과 감소된 평가 손실과 상관관계가 있어, 예정된 2단계 훈련 전략을 뒷받침한다.
- 자가 요약은 더 적은 토큰으로도 효율적인 장기 추론과 KV 캐시를 보존하여 어려운 작업의 성능을 향상시킨다.
- 이 인프라는 고급 병렬성(Context Parallelism), MoE 분리, 특수 저정밀 커널을 결합하여 확장 가능한 학습과 강건한 추론을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.