Skip to main content
QUICK REVIEW

[论文解读] SPARR: Simulation-based Policies with Asymmetric Real-world Residuals for Assembly

Yijie Guo, Iretiayo Akinola|arXiv (Cornell University)|Feb 26, 2026
Robot Manipulation and Learning被引用 0
一句话总结

SPARR 将一个经过仿真训练的基础策略与一个真实世界的、基于视觉的残差策略相结合,以自主适应装配任务,实现近乎完美的真实世界成功率并降低循环时间。

ABSTRACT

Robotic assembly presents a long-standing challenge due to its requirement for precise, contact-rich manipulation. While simulation-based learning has enabled the development of robust assembly policies, their performance often degrades when deployed in real-world settings due to the sim-to-real gap. Conversely, real-world reinforcement learning (RL) methods avoid the sim-to-real gap, but rely heavily on human supervision and lack generalization ability to environmental changes. In this work, we propose a hybrid approach that combines a simulation-trained base policy with a real-world residual policy to efficiently adapt to real-world variations. The base policy, trained in simulation using low-level state observations and dense rewards, provides strong priors for initial behavior. The residual policy, learned in the real world using visual observations and sparse rewards, compensates for discrepancies in dynamics and sensor noise. Extensive real-world experiments demonstrate that our method, SPARR, achieves near-perfect success rates across diverse two-part assembly tasks. Compared to the state-of-the-art zero-shot sim-to-real methods, SPARR improves success rates by 38.4% while reducing cycle time by 29.7%. Moreover, SPARR requires no human expertise, in contrast to the state-of-the-art real-world RL approaches that depend heavily on human supervision.

研究动机与目标

  • 通过解决接触密集任务中的仿真与现实差距,推动鲁棒的机器人装配。
  • 提出一种混合策略,使用仿真基础部分和真实世界残差部分以适应动力学与感知变化。
  • 通过实现自主真实世界适应,消除对人工监督的需求。
  • 展示对姿态估计噪声的鲁棒性以及对未见任务的泛化能力。

提出的方法

  • 在仿真中使用 PPO 和密集模仿奖励对状态基础策略进行预训练。
  • 在真实世界中部署基础策略,使用姿态估计设定目标姿态并引入状态估计噪声。
  • 引入一个基于视觉条件的残差策略,输出增量姿态修正。
  • 在真实世界中使用稀疏奖励和带演示的 RLPD 训练残差策略,演示数据来自基础策略的滚动数据。
  • 将基础动作与残差动作进行叠加,在每个时间步形成最终动作。
  • 使用以成功轨迹为种子的视频演示缓冲区,并在训练期间用更高质量的体验更新它。

实验结果

研究问题

  • RQ1SPARR 是否能够在几乎没有人工监督的情况下,将仿真训练的策略适配到真实世界的装配任务并实现近乎完美的成功率?
  • RQ2在真实世界部署中,SPARR 对姿态变化和姿态估计误差是否鲁棒?
  • RQ3SPARR 是否能够从类似 AutoMate 的任务泛化到未见的 NIST 装配任务?
  • RQ4将基础动作作为输入引入残差策略,对适配性能的影响是什么?

主要发现

  • SPARR 在两个部件装配任务上实现了 95–100% 的真实世界成功率且无需人工监督。
  • 相比于零-shot 的 AutoMate 类 Baselines,SPARR 将成功率提升了 38.4%,循环时间降低了 29.7%。
  • SPARR 展现了对插座姿态变化和姿态估计噪声的鲁棒性,优于基于状态的残差策略。
  • SPARR 能泛化到未见的 NIST 任务,在任务间的成功率和循环时间上均有显著提升(分别为 74.5% 和 36.5%)。
  • 将基础动作作为输入引入残差策略可提供有意义的上下文,并提升了相对于没有该输入的变体的性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。