QUICK REVIEW

[论文解读] Imitating Latent Policies from Observation

Ashley D. Edwards, Himanshu Sahni|arXiv (Cornell University)|May 21, 2018

Reinforcement Learning in Robotics参考文献 30被引用 43

一句话总结

ILPO 从专家状态观测中学习潜在策略，并使用少量环境交互将潜在动作映射到真实动作，使在无专家动作的情况下进行模仿，在多个领域超越 Observation 的 BC。

ABSTRACT

In this paper, we describe a novel approach to imitation learning that infers latent policies directly from state observations. We introduce a method that characterizes the causal effects of latent actions on observations while simultaneously predicting their likelihood. We then outline an action alignment procedure that leverages a small amount of environment interactions to determine a mapping between the latent and real-world actions. We show that this corrected labeling can be used for imitating the observed behavior, even though no expert actions are given. We evaluate our approach within classic control environments and a platform game and demonstrate that it performs better than standard approaches. Code for this work is available at https://github.com/ashedwards/ILPO.

研究动机与目标

从状态观测中推断潜在策略，而无法访问专家动作。
学习一个潜在前向动力学模型以在潜在行动条件下预测下一个状态。
开发一个动作重映射机制，以在最少环境交互下将潜在动作与真实动作对齐。
在经典控制任务和一个可视化平台游戏上展示 ILPO 相对于基线（如 BCO）的有效性。

提出的方法

训练一个潜在策略网络，该网络联合学习前向动力学模型 G 和在给定状态下的潜在动作 z 的先验分布。
使用 G(s, z) 预测状态差 Δt = st+1 − st，并使对 z 的最小化 over 的 ||Δt − G(Ep(st), z)||^2，以捕捉多模态转变。
通过匹配潜在分布下的期望下一个状态与观测到的下一个状态来学习潜在策略 πω(z|st)。
结合一个动作重映射网络 πξ(a|z, Ea(st))，该网络通过有限的环境交互进行训练，将潜在动作映射到真实动作。
使用一个两步过程：先离线从观测中学习潜在策略，然后通过少量交互进行地面真值动作重映射，以实现模仿。

实验结果

研究问题

RQ1从状态观测中推断的潜在动作是否能够在没有访问专家动作的情况下捕捉底层动作的效果？
RQ2需要多少环境交互将潜在动作与真实动作对齐，以便能够进行模仿？
RQ3离线学习潜在动力学再加上最小动作重映射是否优于需要更多环境数据的基线（观测模仿）？
RQ4该方法在离散动作的 MDP 和具有高维观测的可视化平台游戏中是否鲁棒？],

主要发现

ILPO 在 CartPole 和 Acrobot 上以少于 100 次环境步骤达到专家水平。
ILPO 在经典控制任务中优于 Observation 的行为克隆（BCO）。
在 CoinRun 中，ILPO 相对于 BCO 有所提升，但并不一定在所有种子或关卡上达到专家水平，反映了高维视觉任务的更高难度。
选择潜在动作集合大小 |Z| 接近真实动作数量 |A| 有利，尽管该方法在其他大小下也能学习。
重映射动作步骤需要相对较少的交互即可将潜在动作与真实动作对齐，相较于在线学习动力学的 BCO，样本复杂度降低。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。