QUICK REVIEW

[论文解读] Imitation Learning from Observations by Minimizing Inverse Dynamics Disagreement

Chao Yang, Xiaojian Ma|arXiv (Cornell University)|Oct 10, 2019

Reinforcement Learning in Robotics被引用 27

一句话总结

该论文提出了一种无模型的从观察中学习（LfO）方法——逆动力学差异最小化（IDDM），通过最小化专家与模仿者逆动力学模型之间的差异，缩小了LfO与从示范中学习（LfD）之间的性能差距。通过将该差距的上界表示为负因果熵，IDDM在具有挑战性的控制基准测试中提升了模仿性能，始终优于先前的LfO方法，包括GAIfO。

ABSTRACT

This paper studies Learning from Observations (LfO) for imitation learning with access to state-only demonstrations. In contrast to Learning from Demonstration (LfD) that involves both action and state supervision, LfO is more practical in leveraging previously inapplicable resources (e.g. videos), yet more challenging due to the incomplete expert guidance. In this paper, we investigate LfO and its difference with LfD in both theoretical and practical perspectives. We first prove that the gap between LfD and LfO actually lies in the disagreement of inverse dynamics models between the imitator and the expert, if following the modeling approach of GAIL. More importantly, the upper bound of this gap is revealed by a negative causal entropy which can be minimized in a model-free way. We term our method as Inverse-Dynamics-Disagreement-Minimization (IDDM) which enhances the conventional LfO method through further bridging the gap to LfD. Considerable empirical results on challenging benchmarks indicate that our method attains consistent improvements over other LfO counterparts.

研究动机与目标

解决仅从状态示范中进行模仿学习（LfO）的挑战，其中专家动作不可用，这导致其性能相比动作监督的LfD受限。
理论上表征LfO与LfD之间性能差距的根源，即源于专家与模仿者模型在逆动力学上的不一致。
提出一种无模型方法，通过最小化该差异来弥合差距并提升LfO性能。
在多样化的控制基准上实证验证该方法，证明其在现有LfO基线方法上的一致性优势。

提出的方法

该方法在GAIL建模框架下，将LfO与LfD之间的性能差距形式化为专家与模仿者逆动力学模型之间的差异。
推导出该差距的上界为状态-动作占据测度的负因果熵，并以无模型方式最小化该上界。
负熵项包含一个互信息（MI）成分，通过MINE估计器进行优化，从而实现高效训练。
该方法引入两个超参数：λp用于策略熵正则化，λs用于互信息项的权重，两者均通过消融实验调优。
该方法以端到端的方式在GAIL风格的对抗性框架中实现，仅使用专家示范的状态轨迹。
该方法被应用于具有高维动作空间的连续控制环境，包括运动与操作任务。

实验结果

研究问题

RQ1在基于GAIL建模时，LfO与LfD之间性能差距的理论根源是什么？
RQ2通过最小化专家与模仿者模型之间的逆动力学差异，能否弥合LfO中的性能差距？
RQ3该性能差距的上界是否可表示为可无模型优化的负因果熵？
RQ4所提出的IDDM方法在多样化的控制任务中与现有LfO基线（如GAIfO）相比表现如何？
RQ5策略熵与互信息项在IDDM最终性能中的贡献分别是什么？

主要发现

在Gridworld环境中，IDDM在仅1种动作选择下取得了87.3±1.8%的成功率，优于GAIfO的86.8±1.3%和GAIL的86.0±3.0%。
在11种动作选择下，IDDM达到49.0±8.6%的成功率，显著优于GAIfO的28.3±6.2%和GAIL的69.0±4.0%。
在HalfCheetah环境中，IDDM在λs=0.1且λp=0.001时取得了5540.5±100.3的平均回报，优于基线GAIfO（4658.0±90.2）及其他消融设置。
消融实验确认，策略熵（λp）与互信息（λs）项均对性能有正向贡献，其中λs的影响更为显著且稳定。
网格搜索结果显示，添加互信息项在所有超参数设置下均一致提升了性能，且随着λs增大，性能增益也持续增加。
IDDM在全部七个基准环境（包括CartPole、Pendulum、Hopper、Halfcheetah、Ant和DoublePendulum）中均一致优于GAIfO。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。