QUICK REVIEW

[论文解读] Visual Foresight: Model-Based Deep Reinforcement Learning for Vision-Based Robotic Control

Frederik Ebert, Chelsea Finn|arXiv (Cornell University)|Dec 3, 2018

Reinforcement Learning in Robotics参考文献 42被引用 263

一句话总结

一种自监督、基于模型的深度强化学习方法，用于基于视觉的机器人操作。它从无标签交互中学习一个预测性视频模型，并使用带有模型预测控制（MPC）的规划，在像素目标、目标图像或目标分类器的条件下，完成多样且未见过的任务和对象。

ABSTRACT

Deep reinforcement learning (RL) algorithms can learn complex robotic skills from raw sensory inputs, but have yet to achieve the kind of broad generalization and applicability demonstrated by deep learning methods in supervised domains. We present a deep RL method that is practical for real-world robotics tasks, such as robotic manipulation, and generalizes effectively to never-before-seen tasks and objects. In these settings, ground truth reward signals are typically unavailable, and we therefore propose a self-supervised model-based approach, where a predictive model learns to directly predict the future from raw sensory readings, such as camera images. At test time, we explore three distinct goal specification methods: designated pixels, where a user specifies desired object manipulation tasks by selecting particular pixels in an image and corresponding goal positions, goal images, where the desired goal state is specified with an image, and image classifiers, which define spaces of goal states. Our deep predictive models are trained using data collected autonomously and continuously by a robot interacting with hundreds of objects, without human supervision. We demonstrate that visual MPC can generalize to never-before-seen objects---both rigid and deformable---and solve a range of user-defined object manipulation tasks using the same model.

研究动机与目标

在没有外部奖励或复位的情况下，从原始像素输入实现机器人操作。
从无监督交互中学习一个前向预测模型，使其能够推广到未见的对象和任务。
为规划解提供灵活的目标规范方法（像素、目标图像或分类器）。
展示使用单一预测模型对混乱、可变形对象和大扰动的鲁棒性。

提出的方法

训练一个基于变换的架构（DNA/SNA）的行动条件下预测未来帧的视频预测模型。
使用带有采样的、梯度无关的规划器的模型预测控制来选择在时间步长 T 内尽量最小化规划成本的行动。
采用三种规划成本形式：到指定目标的像素距离、与起始/目标帧对齐的图像到图像配准成本，以及通过元学习（CAML-MAML）学习的基于分类器的目标。
应用时间跳跃连接（SNA）以处理遮挡并改善多步像素运动预测。
使用自我监督的光流估计在随机抽取的帧之间，联同视频预测器一起训练注册网络。
讨论成本函数之间的取舍，并为目标规范和鲁棒性提供实用建议。

实验结果

研究问题

RQ1是否可以通过从无监督的机器人交互中训练的单一自监督前向视频预测模型，实现对多样且未见过的操作任务的基于规划的控制？
RQ2不同的目标规范机制（像素距离、注册和目标分类器）如何影响性能、鲁棒性和泛化？
RQ3该方法是否能用单一模型处理遮挡、混乱、可变形对象以及大范围扰动？
RQ4在基于视觉的机器人控制中，最大化泛化和数据效率的有效训练与规划策略有哪些？

主要发现

在真实机器人中，使用无监督交互训练的单一预测模型能够实现对未见对象和任务的基于规划的控制。
基于像素的规划结合 MPC 可以通过像素距离、注册的目标图像或基于分类器的目标来驱动对象操作。
基于变换的视频预测器（DNA/SNA）支持遮挡处理及对控制的长时预测鲁棒性。
基于注册的成本通过将当前视图与起始/目标帧对齐来提高规划精度，且自监督的注册模型与预测一起训练。
基于分类器的目标允许抽象任务规格，并且可以通过元学习（CAML/MAML）从少量正样本中学习。
该方法展示了用单一模型对刚性和可变形对象、混乱以及大扰动进行操作的能力，覆盖多样化任务。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。