QUICK REVIEW

[论文解读] Multi-Modal Imitation Learning from Unstructured Demonstrations using Generative Adversarial Nets

Karol Hausman, Yevgen Chebotar|arXiv (Cornell University)|May 30, 2017

Robot Manipulation and Learning参考文献 27被引用 38

一句话总结

本文提出了一种多模态模仿学习框架，通过生成对抗网络（GANs）从非结构化、未标注的示范中联合学习技能分割与策略模仿。通过引入潜在意图变量和基于GAN的训练目标，该方法成功地将混合专家示范分离为不同技能，并学习到一个模仿所有技能的单一多模态策略，其性能优于仅学习单一行为的单模态GAN基线方法。

ABSTRACT

Imitation learning has traditionally been applied to learn a single task from demonstrations thereof. The requirement of structured and isolated demonstrations limits the scalability of imitation learning approaches as they are difficult to apply to real-world scenarios, where robots have to be able to execute a multitude of tasks. In this paper, we propose a multi-modal imitation learning framework that is able to segment and imitate skills from unlabelled and unstructured demonstrations by learning skill segmentation and imitation learning jointly. The extensive simulation results indicate that our method can efficiently separate the demonstrations into individual skills and learn to imitate them using a single multi-modal policy. The video of our experiments is available at http://sites.google.com/view/nips17intentiongan

研究动机与目标

实现从非结构化、未标注示范中的模仿学习，这类示范在现实场景中普遍存在，但对传统方法而言极具挑战。
在无需为每项技能提供独立或预标注示范的前提下，联合学习技能分割与多模态策略学习。
克服单模态策略在混合示范上训练时退化为单一行为的局限性。
开发一个可扩展的框架，支持模仿学习中的分层任务学习与选项发现。

提出的方法

该方法使用带有潜在意图变量的条件生成对抗网络（cGAN），在单一策略中建模多种技能。
判别器被训练以区分专家示范与生成示范，而生成器则学习根据意图变量生成动作。
引入潜在意图损失，以鼓励生成器产生对应于不同意图的多样化行为，防止模式崩溃。
通过联合优化技能分割与策略模仿，使生成器在不同意图状态下匹配专家示范。
该方法利用深度神经网络，可扩展至高维控制任务，如 Walker-2D 和 Humanoid。
该方法无需访问专家奖励函数，从而与基于强化学习微调的方法区分开来。

实验结果

研究问题

RQ1当在混合任务的非结构化、未标注示范上进行训练时，单一策略能否学会模仿多种不同的技能？
RQ2如何联合优化技能分割与策略学习，以避免多模态模仿学习中的模式崩溃？
RQ3所提方法能否从单一混合示范序列中发现有意义且语义上不同的技能？
RQ4与标准 GAN 基模仿学习相比，引入潜在意图损失是否能提升模仿行为的多样性与准确性？
RQ5所学习的多模态策略能否用于发现分层强化学习中的选项？

主要发现

所提方法成功地将非结构化示范分割为不同技能，并学习到一个模仿所有技能的多模态策略，在 Walker-2D 环境中性能接近专家策略。
在 Walker-2D 任务中，带有潜在意图损失的方法学习到了全部三种行为——向前跑、跳跃和向后跑，而基线 GAN 仅退化为单一模式（跳跃）。
在高维 Humanoid 环境中，该方法成功模仿了向前跑和良好平衡的行为，向后跑表现欠佳，但仍优于单模态基线。
该方法展示了在分层任务中发现选项的能力，例如在 Gripper-pusher 环境中通过执行过程中的意图切换实现抓取和推动。
时间轴可视化证实，在执行过程中改变意图变量会触发适当的行为切换，验证了其选项发现能力。
定量结果表明，多模态策略在不同意图状态下均实现了接近专家水平的奖励，证实了其有效的多任务模仿能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。