[论文解读] Robustness via Retrying: Closed-Loop Robotic Manipulation with Self-Supervised Learning
提出一个闭环视觉 MPC 框架,使用自监督图像配准来追踪目标并允许重试,通过原始图像和自动收集数据实现长时域的操纵。
Prediction is an appealing objective for self-supervised learning of behavioral skills, particularly for autonomous robots. However, effectively utilizing predictive models for control, especially with raw image inputs, poses a number of major challenges. How should the predictions be used? What happens when they are inaccurate? In this paper, we tackle these questions by proposing a method for learning robotic skills from raw image observations, using only autonomously collected experience. We show that even an imperfect model can complete complex tasks if it can continuously retry, but this requires the model to not lose track of the objective (e.g., the object of interest). To enable a robot to continuously retry a task, we devise a self-supervised algorithm for learning image registration, which can keep track of objects of interest for the duration of the trial. We demonstrate that this idea can be combined with a video-prediction based controller to enable complex behaviors to be learned from scratch using only raw visual inputs, including grasping, repositioning objects, and non-prehensile manipulation. Our real-world experiments demonstrate that a model trained with 160 robot hours of autonomously collected, unlabeled data is able to successfully perform complex manipulation tasks with a wide range of objects not seen during training.
研究动机与目标
- 利用自监督学习从原始 RGB 观察中实现面向长期的机器人操作。
- 通过在预测误差存在时仍保持与目标的对齐,使机器人能够持续重试任务。
- 从自主收集的数据中学习可握持和非可握持的操作,而无需人工监督。
- 提供基于图像到图像配准的扎实规划代价,以引导基于视频预测的控制。
提出的方法
- 训练一个视频预测模型,在给定动作序列的条件下预测未来观测。
- 开发一个自监督的图像配准模型,将当前观测与起始图像和目标图像对齐。
- 将规划代价定义为注册后的当前位置与目标位置之间的带权像素距离,并通过注册质量进行更新。
- 在每个真实世界步骤进行重新规划的模型预测控制,以实现重试。
- 扩展到多视角(立体)设置,以定义三维目标并跨视图合并代价。
- 加入一个简单的抓取反射,以实现可握持与非可握持操作的结合。
实验结果
研究问题
- RQ1是否可以将原始视觉观测的自监督预测模型用于时序扩展的机器人操作任务?
- RQ2在长期对象重新定位任务中,使用学习得到的基于配准的代价进行连续重试是否能提高成功率?
- RQ3将图像配准作为规划代价与 OpenCV 跟踪器或预测传播相比,其影响是什么?
- RQ4该方法是否可以扩展到多摄像头并实现三维目标设定?
主要发现
| 方法 | 短期 | 长期 |
|---|---|---|
| 视觉MPC + 预测传播 | 83% | 20% |
| 视觉MPC + OpenCV 跟踪 | 83% | 45% |
| 视觉MPC + 注册网络 (Ours) | 83% | 66% |
- 基于配准的规划代价在时序扩展的操作任务中显著提升了性能,相对于预测传播和 OpenCV 跟踪器。
- 由配准模块实现的闭环重试使长距离推送任务的成功率更高。
- 该方法能够仅从自主数据而无需监督实现非握持和握持/非握持操作的结合。
- 在带有未见对象的长距离推送基准中,基于配准的视觉MPC在成功率上超过了基于OpenCV的跟踪和预测传播。
- 结合多视角摄像机可定义三维目标并解决单视角下模糊的任务。
- 在数据收集过程中加入一个简单的抓取反射,可以同时学习抓取技能和推挤技能,从而实现更灵活的操作。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。