QUICK REVIEW

[论文解读] SWE-World: Building Software Engineering Agents in Docker-Free Environments

Shuang Sun, Huatong Song|arXiv (Cornell University)|Feb 3, 2026

Software Engineering Research被引用 0

一句话总结

SWE-World 通过用基于大模型的学习代理替代容器化执行，构建无 Docker 的替代环境以实现可扩展的 SFT、RL 和测试时扩展，从而训练和评估软件工程智能体。

ABSTRACT

Recent advances in large language models (LLMs) have enabled software engineering agents to tackle complex code modification tasks. Most existing approaches rely on execution feedback from containerized environments, which require dependency-complete setup and physical execution of programs and tests. While effective, this paradigm is resource-intensive and difficult to maintain, substantially complicating agent training and limiting scalability. We propose SWE-World, a Docker-free framework that replaces physical execution environments with a learned surrogate for training and evaluating software engineering agents. SWE-World leverages LLM-based models trained on real agent-environment interaction data to predict intermediate execution outcomes and final test feedback, enabling agents to learn without interacting with physical containerized environments. This design preserves the standard agent-environment interaction loop while eliminating the need for costly environment construction and maintenance during agent optimization and evaluation. Furthermore, because SWE-World can simulate the final evaluation outcomes of candidate trajectories without real submission, it enables selecting the best solution among multiple test-time attempts, thereby facilitating effective test-time scaling (TTS) in software engineering tasks. Experiments on SWE-bench Verified demonstrate that SWE-World raises Qwen2.5-Coder-32B from 6.2\% to 52.0\% via Docker-free SFT, 55.0\% with Docker-free RL, and 68.2\% with further TTS. The code is available at https://github.com/RUCAIBox/SWE-World

研究动机与目标

推动减少对资源密集型 Docker 环境的依赖，以利于 SWE 智能体的训练与评估。
提出一个无 Docker 的替代环境，该环境能够预测执行反馈与测试结果。
在无需物理容器的情况下实现可扩展的训练（SFT 与 RL）与测试时扩展。
利用真实世界的 SWE 数据提升智能体学习效率。

提出的方法

将智能体动作分成由确定性沙箱处理的轻量导航/编辑，以及由 SWT 处理的代码执行动作（学习的转移模型）。
训练 SWT 以从仓库级行动中利用包含实例元数据、智能体补丁和执行内容的上下文来预测逐步执行反馈。
训练 SWR 以在包含单元测试的评估上下文下SIMULATE 最终测试评估并产生结构化的测试反馈及一个二元奖励。
从真实的 Docker 部署中收集训练数据，通过基于 Qwen 的骨干网络使用 SFT 对 SWT 与 SWR 进行监督。
使用反向推理蒸馏来生成带有 Chain-of-Thought 的 SWT 与 SWR 训练数据，以提升对仓库行为的推理能力。
通过 GRPO 进行无 Docker 的 RL，SWT 提供转移反馈，SWR 提供终局奖励。
通过 SWR 驱动的验证对多条候选轨迹进行测试时扩展（TTS），以选择最佳轨迹。

实验结果

研究问题

RQ1一个学习得到的替代环境是否足以在训练 SWE 智能体时逼近基于 Docker 的执行反馈？
RQ2当仅用无 Docker 的反馈训练时，SFT 与 RL 在 SWE 任务上的表现如何？
RQ3无 Docker 的训练加上测试时扩展是否在真实 SWE 基线上达到或超过基于 Docker 的水平？
RQ4需要怎样的数据与模型规模才能在无容器的情况下达到具备竞争力的 SWE 性能？

主要发现

模型	脚手架	训练	环境	解决率（%）
Qwen2.5-Coder-32B	OpenHands	-	Docker	6.2
Qwen3-32B	OpenHands	-	Docker	23.2
Qwen3-Coder-30B-A3B	OpenHands	-	Docker	51.6
SWE-Gym-32B	OpenHands	SFT	Docker	20.6
R2E-Gym-32B	R2E-Gym	SFT	Docker	34.4
+ TTS@16	R2E-Gym	SFT	Docker	49.4
Skywork-SWE-32B	OpenHands	SFT	Docker	38.0
+ TTS@8	OpenHands	SFT	Docker	47.0
SWE-agent-LM-32B	SWE-agent	SFT	Docker	40.2
SWE-Fixer-72B	Agentless	SFT	-	32.8
SA-SWE-32B	OpenHands	RL	Docker	39.4
Llama3-SWE-RL-70B	Agentless	SFT+RL	-	41.0
Lingma-SWE-GPT-72B	Agentless	SFT	-	30.2
DeepSWE-32B-Preview	OpenHands	RL	Docker	42.2
+ TTS@16	OpenHands	RL	Docker	59.0
Kimi-Dev-72B	SWE-Agent	SFT+RL	-	48.6
+ TTS@40	Agentless	SFT+RL	-	60.4
SWE-Mirror-LM-32B	MOpenHands	SFT	Docker	52.2
FrogBoss-32B	SWE-Agent	SFT+RL	Docker	54.6
SWE-Lego-Qwen3-32B	OpenHands	SFT	Docker	52.6
+ TTS@16	OpenHands	SFT	Docker	58.8
SWE-World-4B-SFT	R2E-Gym	SFT	Sandbox + LLMs	25.6
SWE-World-4B-RL	R2E-Gym	SFT+RL	-	30.0
SWE-World-32B-SFT	R2E-Gym	SFT	52.0
SWE-World-32B-RL	R2E-Gym	SFT+RL	-	55.0
+ TTS@8	R2E-Gym	SFT+RL	-	68.2

无 Docker 的训练与 SWE-World 显著提升在 SWE 基准上的智能体表现，例如 Qwen2.5-Coder-32B 在 6.2% 提升至 52.0%（SFT）与 55.0%（RL）的结果。
搭载 TTS 的 SWE-World 在 68.2% 的解决率处于领先地位，在某些设置中超越了此前的基于 Docker 的结果。
SWT（转移模型）与 SWR（奖励模型）提供具有竞争力且可解释的替代反馈与评估信号，SWR 的准确性与精确度普遍高于基线。
一个覆盖广泛的 SWE-World 数据集（16.6K 任务，3,763 个仓库）通过利用真实世界数据实现可扩展的无 Docker 训练。
无 Docker 的 RL 通过在训练阶段消除容器部署的需求来降低基础设施成本，同时仍能保持与传统 Docker 流水线相当的性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。