[论文解读] Data-Efficient Learning for Sim-to-Real Robotic Grasping using Deep Point Cloud Prediction Networks
本文提出了一种数据高效的仿真到现实机器人抓取框架,通过极少的真实RGBD数据与仿真数据,学习领域不变的三维点云表征,实现无需真实世界抓取数据的训练。通过使用自监督的跨视角一致性来预测三维形状,该方法在真实世界中实现了61%的抓取成功率——比2.5D基线高出10个百分点,证明了其在存在仿真到现实领域差距的情况下仍具有强大的泛化能力。
Training a deep network policy for robot manipulation is notoriously costly and time consuming as it depends on collecting a significant amount of real world data. To work well in the real world, the policy needs to see many instances of the task, including various object arrangements in the scene as well as variations in object geometry, texture, material, and environmental illumination. In this paper, we propose a method that learns to perform table-top instance grasping of a wide variety of objects while using no real world grasping data, outperforming the baseline using 2.5D shape by 10%. Our method learns 3D point cloud of object, and use that to train a domain-invariant grasping policy. We formulate the learning process as a two-step procedure: 1) Learning a domain-invariant 3D shape representation of objects from about 76K episodes in simulation and about 530 episodes in the real world, where each episode lasts less than a minute and 2) Learning a critic grasping policy in simulation only based on the 3D shape representation from step 1. Our real world data collection in step 1 is both cheaper and faster compared to existing approaches as it only requires taking multiple snapshots of the scene using a RGBD camera. Finally, the learned 3D representation is not specific to grasping, and can potentially be used in other interaction tasks.
研究动机与目标
- 为解决收集真实世界机器人抓取数据以训练策略所带来的高成本与数据效率低下问题。
- 通过从极少的真实世界RGBD观测中学习领域不变的三维形状表征,减少仿真到现实的领域差距。
- 仅使用仿真数据训练策略,实现零样本仿真到现实迁移的机器人抓取。
- 开发一种轻量级、具备几何感知能力的三维表征,使其能泛化到抓取之外的其他任务。
提出的方法
- 一种自监督形状预测网络利用跨视角一致性作为监督信号,从单视角RGBD图像重建完整的三维点云。
- 该方法利用同一物体从不同视角拍摄的多个快照,在训练过程中强制实现几何一致性。
- 采用两阶段流程:首先,从约76,000个仿真环境样本和约530个真实世界样本中学习领域不变的三维形状表征;其次,仅在仿真环境中使用预测的三维形状训练抓取评论策略。
- 将三维点云表征作为输入,用于基于CEM的策略网络,实现端到端抓取策略优化。
- 框架使用Mask-RCNN进行实例检测与深度估计,随后通过一个训练有形状重建损失的点云预测头。
- 通过仅使用RGBD快照(每轮实验少于1分钟)来最小化真实世界数据采集,避免昂贵的交互式数据采集。
实验结果
研究问题
- RQ1自监督的三维形状预测模型能否从极少的真实世界RGBD数据中学习到领域不变的表征?
- RQ2当使用预测的三维点云作为输入时,仅在仿真数据上训练的抓取策略是否能在真实世界中泛化?
- RQ3与2.5D深度输入相比,三维点云表征是否能更有效地减少机器人抓取任务中的仿真到现实领域差距?
- RQ4输入视角数量如何影响三维形状重建质量以及下游抓取性能?
主要发现
- 所提方法在未见过的物体上实现了61%的真实世界抓取成功率,且不依赖任何真实世界抓取数据,比2.5D深度基线高出10个百分点。
- 当使用四个或更多视角时,三维形状预测模型在未见过的厨房用具物体上达到80.3%的IOU,在真实世界物体上达到62.6%的IOU。
- 当仅使用单视角时性能显著下降(IOU ~0.19),表明多视角监督对形状重建至关重要。
- 使用预测三维形状训练的策略泛化能力优于2.5D基线:真实世界成功率从68%下降至51%(下降17%),而使用三维表征时仅下降10%。
- 该方法通过仅使用RGBD快照(每轮实验少于1分钟)显著降低了真实世界数据采集成本,避免了交互式标注。
- 所学习的三维表征并非任务特定,可复用于抓取之外的其他操作任务。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。