QUICK REVIEW

[论文解读] Directed-Info GAIL: Learning Hierarchical Policies from Unsegmented Demonstrations using Directed Information

Arjun Sharma, Mohit Sharma|arXiv (Cornell University)|Sep 29, 2018

Machine Learning and Algorithms参考文献 25被引用 29

一句话总结

本文提出了一种名为Directed-Info GAIL的生成对抗模仿学习框架，通过最大化子任务隐变量与观测轨迹之间的定向信息，从非分割的专家演示中学习分层策略。通过使用因果图模型建模子任务转移，并采用定向信息而非互信息，该方法能自动发现有意义的子任务结构，同时学习子任务策略与用于在子任务间切换的宏观策略，在连续控制环境中的分割与任务完成性能上优于基线GAIL和VAE方法。

ABSTRACT

The use of imitation learning to learn a single policy for a complex task that has multiple modes or hierarchical structure can be challenging. In fact, previous work has shown that when the modes are known, learning separate policies for each mode or sub-task can greatly improve the performance of imitation learning. In this work, we discover the interaction between sub-tasks from their resulting state-action trajectory sequences using a directed graphical model. We propose a new algorithm based on the generative adversarial imitation learning framework which automatically learns sub-task policies from unsegmented demonstrations. Our approach maximizes the directed information flow in the graphical model between sub-task latent variables and their generated trajectories. We also show how our approach connects with the existing Options framework, which is commonly used to learn hierarchical policies.

研究动机与目标

为解决从非分割、非结构化的专家演示中学习分层策略的挑战，现有方法需依赖分割数据。
克服基于互信息的方法在训练期间依赖未观测到的未来状态的局限性。
在无需预分割演示的情况下，学习子任务特定策略与用于在子任务间切换的宏观策略。
通过信息论视角，将所提方法与分层强化学习中的选项框架相连接。
通过减少行为克隆中常见的误差累积，提升模仿学习的鲁棒性。

提出的方法

该方法使用因果图模型对子任务隐变量与状态-动作轨迹之间的交互进行建模，表示为动态贝叶斯网络。
通过最大化从轨迹到隐因子的定向信息，确保对过去观测的因果依赖，实现无需未来依赖的顺序学习。
该框架通过引入编码子任务身份的隐变量模型并以此条件化策略生成，扩展了生成对抗模仿学习（GAIL）。
训练判别器以区分专家轨迹与生成轨迹，同时优化生成器（策略）以最大化流向隐码的定向信息流。
采用因果条件概率分布，基于观测到的过去状态和动作对子任务间的转移进行建模。
该方法与选项框架相连接，其中隐变量对应于选项，而宏观策略控制选项的切换。

实验结果

研究问题

RQ1能否在无需预先分割的情况下，利用定向信息从非分割的专家演示中发现子任务结构？
RQ2与互信息相比，最大化定向信息在分层模仿学习中如何提升策略学习性能？
RQ3所提方法能否从未分割的原始、非结构化演示中学习到子任务策略与用于在子任务间切换的宏观策略？
RQ4在复杂控制任务中，该方法相较于标准GAIL和VAE基线的性能提升程度如何？
RQ5与选项框架的集成在分层模仿学习中如何增强可解释性与性能？

主要发现

在FetchPickandPlace-v1环境中，Directed-Info GAIL + L2损失在100个episode中的平均回报为-9.47 ± 4.84，显著优于GAIL（-13.29 ± 5.84）和VAE（-14.07 ± 5.57）。
引入用于动作匹配的L2损失显著提升了性能，所提方法在抓取行为上表现出更高的稳定性，优于GAIL。
定性分析显示，Directed-Info GAIL智能体比GAIL智能体更可靠地完成抓取，后者频繁出现夹爪无法闭合或过早闭合的问题。
该方法成功将专家演示分割为有意义的子任务，如Fetch环境中的Pick和Place。
所提方法表现出更好的泛化能力并减少了误差累积，尤其在需要精确、细微动作（如抓取）的任务中。
结果表明，定向信息在反馈丰富的因果模型中，作为信息流的上界优于互信息。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。