[论文解读] Learning a visuomotor controller for real world robotic grasping using simulated depth images
本论文利用仿真深度图像和手腕安装的深度传感器训练一个闭环的视觉-运动控制器用于机器人抓取,能够进行动态修正并相较于一次性抓取姿态检测对噪声更鲁棒。它实现从仿真到真实机器人转移,在受运动学和感知干扰下优于基线。
We want to build robots that are useful in unstructured real world applications, such as doing work in the household. Grasping in particular is an important skill in this domain, yet it remains a challenge. One of the key hurdles is handling unexpected changes or motion in the objects being grasped and kinematic noise or other errors in the robot. This paper proposes an approach to learning a closed-loop controller for robotic grasping that dynamically guides the gripper to the object. We use a wrist-mounted sensor to acquire depth images in front of the gripper and train a convolutional neural network to learn a distance function to true grasps for grasp configurations over an image. The training sensor data is generated in simulation, a major advantage over previous work that uses real robot experience, which is costly to obtain. Despite being trained in simulation, our approach works well on real noisy sensor images. We compare our controller in simulated and real robot experiments to a strong baseline for grasp pose detection, and find that our approach significantly outperforms the baseline in the presence of kinematic noise, perceptual errors and disturbances of the object during grasping.
研究动机与目标
- 通过解决感知噪声和对象运动,在非结构化真实世界环境中驱动鲁棒抓取。
- 开发一个闭环视觉-运动控制器,能够在抓取过程中校正对齐。
- 通过在手腕附近安装深度传感器,消除对特定视角的依赖。
- 在仿真中完全使用深度图像训练控制器,以降低真实机器人数据需求。
- 证明从仿真深度图到真实机器人性能的转移,并与强基线进行比较。
提出的方法
- 一个 CNN 回归器在给定深度图和候选手偏移时预测最近抓取距离。
- 在 OpenRAVE 生成训练数据,使用光线追踪深度图,包含 12.5k 个场景,涵盖 381 种可抓取对象,分为 10 个类别。
- 距离以米为单位在姿态空间测量,行动分量采用角度加权(0.001 m/度)。
- 网络结构类似 LeNet,含两层卷积层,后接两层全连接层,输出预测距离-到-去的距离。
- 损失使用 L1(回归)而非分类,以便对不同姿态的抓取质量进行比较。
- 控制器迭代选择使预测距离最小的动作,并移动步长的一部分,然后在 z 方向前进以接近物体。
- 动作采样限定在当前姿态周围的区域,以捕捉局部梯度信息并确保稳定性。
- 训练使用随机梯度下降,900k 次迭代,学习率 0.001,动量 0.9,批量大小 1000。
实验结果
研究问题
- RQ1在仿真中训练的闭环视觉-运动控制器能泛化到真实世界深度图像以进行抓取吗?
- RQ2在感知和运动干扰下,提出的最近抓取距离 CNN 与一枪抓取姿态检测相比有何差异?
- RQ3手腕安装的深度传感是否能够实现跨不同抓取方向的视角不变的抓取策略?
- RQ4相对于一个强基线,提出的控制器在关节运动噪声和感知误差对抓取成功率的影响是多少?
主要发现
| 场景 | CTR | GPD |
|---|---|---|
| Objects in isolation | 97.5% | 97.5% |
| Clutter | 88.9% | 94.8% |
| Clutter with rotations | 77.3% | 22.5% |
- CTR 在无噪声的仿真中与 GPD 相当,在带运动学噪声的仿真中优于 GPD。
- CTR 通过新的深度反馈重新抓取来纠正单深度图的感知误差。
- 在 UR5 硬件上,CTR 在单独抓取时的成功率为 97.5%,在混乱场景为 88.9%,可与 GPD(97.5% 和 94.8%)相比,但在对象在抓取过程中旋转或移动时,CTR 的表现优于 GPD。
- CTR 在抓取过程中的对象位移表现出鲁棒性,而 GPD 的表现显著下降。
- 经过处理后的无效读取,仿真训练的 CNN 能很好地迁移到真实深度图像。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。