QUICK REVIEW

[논문 리뷰] SWE-World: Building Software Engineering Agents in Docker-Free Environments

Shuang Sun, Huatong Song|arXiv (Cornell University)|2026. 02. 03.

Software Engineering Research인용 수 0

한 줄 요약

SWE-World는 컨테이너화된 실행을 학습된 LLM 기반 모델로 대체하여 소프트웨어 엔지니어링 에이전트의 학습 및 평가를 위한 Docker-없는 대체 환경을 도입하고, 확장 가능한 SFT, RL 및 테스트 시 확장을 가능하게 한다.

ABSTRACT

Recent advances in large language models (LLMs) have enabled software engineering agents to tackle complex code modification tasks. Most existing approaches rely on execution feedback from containerized environments, which require dependency-complete setup and physical execution of programs and tests. While effective, this paradigm is resource-intensive and difficult to maintain, substantially complicating agent training and limiting scalability. We propose SWE-World, a Docker-free framework that replaces physical execution environments with a learned surrogate for training and evaluating software engineering agents. SWE-World leverages LLM-based models trained on real agent-environment interaction data to predict intermediate execution outcomes and final test feedback, enabling agents to learn without interacting with physical containerized environments. This design preserves the standard agent-environment interaction loop while eliminating the need for costly environment construction and maintenance during agent optimization and evaluation. Furthermore, because SWE-World can simulate the final evaluation outcomes of candidate trajectories without real submission, it enables selecting the best solution among multiple test-time attempts, thereby facilitating effective test-time scaling (TTS) in software engineering tasks. Experiments on SWE-bench Verified demonstrate that SWE-World raises Qwen2.5-Coder-32B from 6.2\% to 52.0\% via Docker-free SFT, 55.0\% with Docker-free RL, and 68.2\% with further TTS. The code is available at https://github.com/RUCAIBox/SWE-World

연구 동기 및 목표

resource-intensive Docker-based 환경에 대한 의존도를 줄이는 것에 대한 동기 부여.
실행 피드백과 테스트 결과를 예측하는 Docker-free 대체 환경 제안.
물리적 컨테이너 없이 확장 가능한 학습(SFT 및 RL) 및 테스트 시간 확장(TTS) 가능.
실제 SWE 데이터를 활용하여 에이전트 학습 효율성 향상.

제안 방법

에이전트 동작을 경량 탐색/편집은 결정적 샌드박스로 처리하고 코드 실행 동작은 학습된 전이 모델 SWT가 처리하도록 분할.
컨텍스트에 인스턴스 메타데이터, 에이전트 패치, 실행 내용을 포함한 상태를 사용하여_repository 단위의 행동으로부터 단계 수준 실행 피드백을 예측하도록 SWT를 학습.
단위 테스트를 포함한 평가 맥락을 사용하여 최종 테스트 평가를 시뮬레이션하고 구조화된 테스트 피드백과 이진 보상을 생성하도록 SWR를 학습.
Qwen 기반 백본을 사용하여 SFT를 통해 SWT 및 SWR를 감독하기 위해 실제 Docker 롤아웃에서 학습 데이터를 수집.
사고력 향상을 위해 SWT 및 SWR에 CoT 보강 학습 데이터를 생성하는 역추론 증류를 사용.
SWT가 전이 피드백을 제공하고 SWR이 종료 보상을 제공하는 GRPO를 사용한 Docker-free RL 수행.
여러 후보 경로를 SWR 기반 검증으로 평가하여 최적 경로를 선택하는 테스트 시 확장(TTS) 구현.

실험 결과

연구 질문

RQ1학습된 대체 환경이 Docker 기반 실행 피드백을 SWE 에이전트 학습에 충분히 근사화할 수 있는가?
RQ2Docker-free 피드백으로만 학습했을 때 SWE 작업에 대한 SFT와 RL의 성능은 얼마나 되는가?
RQ3Docker-free 학습과 TTS가 실제 SWE 벤치마크에서 Docker 기반 기준선과 일치하거나 능가하는가?
RQ4컨테이너 없이 경쟁력 있는 SWE 성능을 달성하기 위해 필요한 데이터 및 모델 규모는 어느 정도인가?

주요 결과

모델	스캐폴드	훈련	환경	해결율 (%)
Qwen2.5-Coder-32B	OpenHands	-	Docker	6.2
Qwen3-32B	OpenHands	-	Docker	23.2
Qwen3-Coder-30B-A3B	OpenHands	-	Docker	51.6
SWE-Gym-32B	OpenHands	SFT	Docker	20.6
R2E-Gym-32B	R2E-Gym	SFT	Docker	34.4
+ TTS@16	R2E-Gym	SFT	Docker	49.4
Skywork-SWE-32B	OpenHands	SFT	Docker	38.0
+ TTS@8	OpenHands	SFT	Docker	47.0
SWE-agent-LM-32B	SWE-agent	SFT	Docker	40.2
SWE-Fixer-72B	Agentless	SFT	-	32.8
SA-SWE-32B	OpenHands	RL	Docker	39.4
Llama3-SWE-RL-70B	Agentless	SFT+RL	-	41.0
Lingma-SWE-GPT-72B	Agentless	SFT	-	30.2
DeepSWE-32B-Preview	OpenHands	RL	Docker	42.2
+ TTS@16	OpenHands	RL	Docker	59.0
Kimi-Dev-72B	SWE-Agent	SFT+RL	-	48.6
+ TTS@40	Agentless	SFT+RL	-	60.4
SWE-Mirror-LM-32B	MOpenHands	SFT	Docker	52.2
FrogBoss-32B	SWE-Agent	SFT+RL	Docker	54.6
SWE-Lego-Qwen3-32B	OpenHands	SFT	Docker	52.6
+ TTS@16	OpenHands	SFT	Docker	58.8
SWE-World-4B-SFT	R2E-Gym	SFT	Sandbox + LLMs	25.6
SWE- World-4B-RL	R2E-Gym	SFT+RL	-	30.0
SWE-World-32B-SFT	R2E-Gym	SFT	52.0
SWE-World-32B-RL	R2E-Gym	SFT+RL	-	55.0
+ TTS@8	R2E-Gym	SFT+RL	-	68.2

Docker-free 학습이 SWE-World를 통해 SWE-벤치에서 에이전트 성능을 크게 향상시키며, 예시로 Qwen2.5-Coder-32B의 SFT에서 6.2%에서 52.0%(SFT) 및 55.0%(RL)으로 향상되었습니다.
TTS를 활용한 SWE-World는 68.2% 해결율에 도달하여 일부 설정에서 기존의 Docker 기반 결과를 능가합니다.
전이 모델 SWT와 보상 모델 SWR은 경쟁력 있고 해석 가능한 대체 피드백 및 평가 신호를 제공하며, SWR는 기준선보다 높은 정확도와 정밀도를 달성합니다.
실제 세계 데이터(16.6K 작업, 3,763 저장소)를 활용하여 Docker-free 학습이 가능하도록 하는 광범위한 SWE-World 데이터세트가 있습니다.
Docker-free RL은 학습 중 컨테이너 롤아웃을 제거하여 인프라 필요성을 줄이면서도 전통적인 Docker 파이프라인과 경쟁력 있는 성능을 유지합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.