[论文解读] Sim-to-Real Transfer of Accurate Grasping with Eye-In-Hand Observations and Continuous Control
本文提出了一种模块化的仿真到现实迁移框架,用于仅通过眼动相机RGB视觉和闭环深度神经网络(DNN)控制器实现对直径1.37厘米微小球体的高精度抓取。通过将采用领域随机化训练的视觉模块(使用真实背景与仿真物体组合)与在仿真中通过模仿学习训练的DNN控制器解耦,该系统在真实机器人上实现了90%的抓取成功率,且能泛化至运动目标和杂乱背景,无需显式失败恢复训练。
In the context of deep learning for robotics, we show effective method of training a real robot to grasp a tiny sphere (1.37cm of diameter), with an original combination of system design choices. We decompose the end-to-end system into a vision module and a closed-loop controller module. The two modules use target object segmentation as their common interface. The vision module extracts information from the robot end-effector camera, in the form of a binary segmentation mask of the target. We train it to achieve effective domain transfer by composing real background images with simulated images of the target. The controller module takes as input the binary segmentation mask, and thus is agnostic to visual discrepancies between simulated and real environments. We train our closed-loop controller in simulation using imitation learning and show it is robust with respect to discrepancies between the dynamic model of the simulated and real robot: when combined with eye-in-hand observations, we achieve a 90% success rate in grasping a tiny sphere with a real robot. The controller can generalize to unseen scenarios where the target is moving and even learns to recover from failures.
研究动机与目标
- 仅通过基于仿真的训练,在真实世界中实现对直径1.37厘米微小球体的高精度抓取。
- 通过将视觉与控制模块解耦,并以分割作为领域无关的接口,缓解视觉与控制中的仿真到现实域差距。
- 开发一种可在仿真与现实之间视觉域变化(如光照、阴影)下保持泛化的视觉模块,且无需复杂的3D渲染。
- 在仿真中训练闭环DNN控制器,使其能稳健应对机器人动力学差异,并在真实执行中实现失败恢复。
- 证明端到端模仿学习结合模块化设计可实现无需LSTM或显式失败数据增强的鲁棒、可泛化的抓取。
提出的方法
- 系统被分解为视觉模块与闭环DNN控制器,以分割掩码作为共享接口。
- 视觉模块采用领域随机化技术进行训练:将真实背景图像与目标球体的合成图像叠加,以模拟真实世界的视觉变化。
- DNN视觉模块处理来自末端执行器相机的真实RGB图像,并输出目标物体的二值分割掩码,从而抽象出外观差异。
- 闭环DNN控制器在仿真中通过模仿学习对专家示范进行训练,其状态输入源自分割掩码。
- 控制器实时运行,根据当前分割掩码调整动作,实现对位置误差与动态误差的在线校正。
- 整个系统在真实机器人上部署时使用相同的DNN控制器与视觉模块,无需进一步微调。
实验结果
研究问题
- RQ1在光照与遮挡变化条件下,基于合成物体与真实背景训练的视觉模块是否能泛化至对微小、高反射球体的真实世界分割?
- RQ2尽管仿真与现实中的机器人动力学存在差异,基于仿真训练的闭环DNN控制器是否能在真实机器人上实现高成功率?
- RQ3模块化架构(视觉与控制分离)是否能实现对未见场景(如运动目标或背景杂乱)的鲁棒泛化?
- RQ4系统是否能通过模仿学习自然习得失败恢复行为,而无需在训练数据中显式增强失败案例?
- RQ5与第三人称视觉或开环方法相比,使用眼动相机RGB视觉与基于分割的接口在多大程度上提升了系统鲁棒性?
主要发现
- 该系统在真实机器人上对直径1.37厘米球体的抓取成功率达到了90%,证明了有效的仿真到现实迁移能力。
- DNN视觉模块的召回率达到98.3%,精确率达到85.3%,相比人工调校的HSV颜色滤波基线方法表现更优,尤其在阴影或遮挡条件下。
- 系统成功抓取了运动目标并处理了背景杂乱,尽管这些场景未出现在视觉模块的训练数据中。
- 机器人在未使用LSTM或显式失败数据增强的情况下,自然习得了从失败抓取中恢复的策略。
- 闭环控制器补偿了仿真与真实机器人之间的动态差异,即使仿真保真度不完美,仍能实现稳健性能。
- 模块化设计使得视觉与控制器模块可独立训练,并可轻松复用于不同机器人或环境,仅需极少再训练。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。