[论文解读] Imitation Learning via Off-Policy Distribution Matching
该论文提出ValueDICE,一种新颖的离策略模仿学习算法,通过直接最小化专家策略与行为策略在状态-动作分布之间的差异,无需依赖显式奖励信号或在线策略数据。通过将分布比率估计重新表述为完全离策略的目标,ValueDICE实现了样本高效且稳定的训练,并在MuJoCo基准测试中达到最先进性能,优于先前的DAC和GAIL等方法,尤其在低数据场景下表现更优。
When performing imitation learning from expert demonstrations, distribution matching is a popular approach, in which one alternates between estimating distribution ratios and then using these ratios as rewards in a standard reinforcement learning (RL) algorithm. Traditionally, estimation of the distribution ratio requires on-policy data, which has caused previous work to either be exorbitantly data-inefficient or alter the original objective in a manner that can drastically change its optimum. In this work, we show how the original distribution ratio estimation objective may be transformed in a principled manner to yield a completely off-policy objective. In addition to the data-efficiency that this provides, we are able to show that this objective also renders the use of a separate RL optimization unnecessary.Rather, an imitation policy may be learned directly from this objective without the use of explicit rewards. We call the resulting algorithm ValueDICE and evaluate it on a suite of popular imitation learning benchmarks, finding that it can achieve state-of-the-art sample efficiency and performance.
研究动机与目标
- 解决在线策略分布匹配在模仿学习中因每次策略更新都需要重复环境交互而导致的样本效率低下问题。
- 开发一种理论基础坚实的离策略分布比率估计方法,避免在比率估计过程中依赖在线策略数据。
- 通过直接从差异最小化目标进行策略优化,消除对独立强化学习优化步骤的需求。
- 在统一的、无奖励的框架下,实现低数据与高数据场景下的模仿学习最先进性能。
提出的方法
- 通过推导出完全离策略的目标,重新表述原始分布匹配目标,以避免在线策略期望。
- 使用评论网络估计专家策略与行为策略在状态-动作分布上的比率,训练数据来自过去交互的回放缓冲区。
- 直接从行为策略参数反向传播差异目标的梯度,实现无需显式奖励的端到端策略学习。
- 提出ValueDICE作为简化算法,直接从差异目标学习模仿策略,跳过传统强化学习的奖励设计步骤。
- 采用基于Q函数的目标来近似分布比率,支持稳定且高效的离策略更新。
- 使用包含专家示范数据与行为策略轨迹的回放缓冲区,以离策略方式训练比率估计器。
实验结果
研究问题
- RQ1是否可以在不牺牲原始目标理论保证的前提下,使模仿学习中的分布匹配完全实现离策略?
- RQ2是否可以通过直接优化差异目标,消除对独立强化学习优化步骤的需求?
- RQ3无奖励的模仿学习算法能否实现最先进性能并具备高样本效率?
- RQ4所提出的离策略分布匹配方法在低数据场景下,与在线策略及先前的离策略模仿学习基线方法相比表现如何?
主要发现
- 当仅提供一条专家轨迹时,ValueDICE在所有MuJoCo环境中均优于DAC和GAIL,展现出更优的样本效率。
- 在低数据场景(1条专家轨迹)下,ValueDICE的平均回报高于DAC和GAIL,而GAIL未能实现有意义的进展。
- 当使用10条专家轨迹时,ValueDICE保持强劲性能并比基线方法收敛更快,而行为克隆也恢复了专家性能。
- 在一个具有稀疏专家数据的合成环形MDP中,ValueDICE成功学习到一种策略,能够导航至并循环经过状态1和状态2,从而匹配专家的状态-动作占用率。
- 在随机专家设定下,ValueDICE在训练过程中有效最小化了行为策略与专家状态-动作分布之间的真实KL散度。
- 该方法在低数据与高数据场景下均实现了最先进性能,验证了其鲁棒性与高效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。