QUICK REVIEW

[论文解读] Deep Visual Foresight for Planning Robot Motion

Chelsea Finn, Sergey Levine|arXiv (Cornell University)|Oct 3, 2016

Robot Manipulation and Learning参考文献 36被引用 19

一句话总结

本文提出一种基于深度动作条件化视频预测的自监督方法，用于机器人运动规划，使真实机器人能够在无需人工标注数据、相机标定或物理模拟器的情况下，实现对新物体的非抓取式操作。该方法通过在学习到的视觉预见模型上使用模型预测控制（MPC），规划使用户指定像素移动到目标位置的动作，从而通过端到端的视觉想象实现对未见物体的鲁棒性能。

ABSTRACT

A key challenge in scaling up robot learning to many skills and environments is removing the need for human supervision, so that robots can collect their own data and improve their own performance without being limited by the cost of requesting human feedback. Model-based reinforcement learning holds the promise of enabling an agent to learn to predict the effects of its actions, which could provide flexible predictive models for a wide range of tasks and environments, without detailed human supervision. We develop a method for combining deep action-conditioned video prediction models with model-predictive control that uses entirely unlabeled training data. Our approach does not require a calibrated camera, an instrumented training set-up, nor precise sensing and actuation. Our results show that our method enables a real robot to perform nonprehensile manipulation -- pushing objects -- and can handle novel objects not seen during training.

研究动机与目标

解决在无监督情况下将机器人学习扩展到新任务和新环境的挑战。
克服人工设计的机器人流水线在面对未见物体时因建模误差累积而失效的局限性。
仅使用自主收集的未标注视频数据，实现实机器人操作。
开发一种方法，使其在测试时能泛化到训练过程中未见过的新物体，且无需3D模型或深度传感。
证明学习到的视觉预见模型能够支持在实时环境中实现有效且连续的运动规划。

提出的方法

在机器人在真实环境中自主收集的未标注视频数据上，训练基于卷积LSTM的视频预测模型。
将视频预测模型条件化于电机指令序列，以预测未来的图像帧和像素位移。
通过预测模型的概率推理执行模型预测控制（MPC）以进行动作规划。
将任务目标定义为在测试时将图像中的特定像素（或像素组）移动到期望的目标位置。
通过实时观测持续重规划动作，实现反馈控制并纠正预测误差。
通过最大化在预测图像序列中实现期望像素位移的可能性，来优化动作序列。

实验结果

研究问题

RQ1在无监督自监督方式下训练的深度视觉预见模型，是否能够实现无需人工标注奖励或物体标签的有效机器人运动规划？
RQ2此类模型在非抓取推动任务中，对训练过程中未见过的新物体的泛化能力如何？
RQ3与依赖几何规则或已知相机标定的启发式基线方法相比，该方法的性能如何？
RQ4该方法的失败模式是什么，特别是关于自遮挡和物体动力学预测不准确的问题？
RQ5将概率视频预测与MPC结合，是否能够实现在非结构化环境中鲁棒且实时的控制？

主要发现

该方法使真实机器人能够在训练过程中未见过的新物体上执行非抓取推动任务，证明了其在训练分布之外的泛化能力。
该方法优于简单的几何启发式基线方法，也优于需要相机标定的方法，即使在无深度传感或3D模型的情况下依然表现优异。
失败案例主要源于自遮挡（例如机器人手臂遮挡物体）以及对物体质量或接触动力学预测不准确。
该模型能够通过预测像素位移和接触效应，成功规划使目标像素移动到目标位置的动作，即使对于之前未见过的物体也是如此。
性能受限于当前视频预测模型的短预测时序和准确性，通常仅能预测几帧未来图像。
该方法在标准GPU上计算可行，表明其在自包含机器人系统中具有实际部署潜力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。