QUICK REVIEW

[论文解读] HIRL: Hierarchical Inverse Reinforcement Learning for Long-Horizon Tasks with Delayed Rewards

Sanjay Krishnan, Animesh Garg|arXiv (Cornell University)|Apr 21, 2016

Reinforcement Learning in Robotics参考文献 33被引用 27

一句话总结

HIRL 提出了一种分层逆强化学习框架，通过核函数识别局部线性变化，从专家演示中学习子任务结构，进而构建具有结构化、顺序性的奖励函数。与最大熵逆强化学习（MaxEnt IRL）相比，该方法在强化学习训练中实现了最高6倍的收敛速度提升，尤其在部分可观测性和噪声动力学条件下表现更优。

ABSTRACT

Reinforcement Learning (RL) struggles in problems with delayed rewards, and one approach is to segment the task into sub-tasks with incremental rewards. We propose a framework called Hierarchical Inverse Reinforcement Learning (HIRL), which is a model for learning sub-task structure from demonstrations. HIRL decomposes the task into sub-tasks based on transitions that are consistent across demonstrations. These transitions are defined as changes in local linearity w.r.t to a kernel function. Then, HIRL uses the inferred structure to learn reward functions local to the sub-tasks but also handle any global dependencies such as sequentiality. We have evaluated HIRL on several standard RL benchmarks: Parallel Parking with noisy dynamics, Two-Link Pendulum, 2D Noisy Motion Planning, and a Pinball environment. In the parallel parking task, we find that rewards constructed with HIRL converge to a policy with an 80% success rate in 32% fewer time-steps than those constructed with Maximum Entropy Inverse RL (MaxEnt IRL), and with partial state observation, the policies learned with IRL fail to achieve this accuracy while HIRL still converges. We further find that that the rewards learned with HIRL are robust to environment noise where they can tolerate 1 stdev. of random perturbation in the poses in the environment obstacles while maintaining roughly the same convergence rate. We find that HIRL rewards can converge up-to 6x faster than rewards constructed with IRL.

研究动机与目标

解决在长时域强化学习任务中延迟奖励下学习高效策略的挑战。
通过将任务分解为具有增量奖励的子任务，克服标准逆强化学习在稀疏或延迟奖励信号下的低效问题。
从少量专家演示中学习分层任务结构，而无需完整的系统辨识。
通过利用子任务结构，在部分状态观测和环境噪声下实现更鲁棒、更快的策略学习。
通过状态空间扩展，构建同时尊重局部子任务动态和全局顺序依赖关系的奖励函数。

提出的方法

通过核函数检测演示中一致的局部线性变化，识别子任务，避免完整系统辨识。
将每个子任务建模为带有停止规则和局部奖励函数的线性高斯MDP。
通过激活的子任务指示器扩展状态空间，以编码顺序依赖关系并强制正确的执行顺序。
在扩展的状态空间上应用逆强化学习（IRL），学习反映当前状态和激活子任务的奖励函数。
将复合任务形式化为高层MDP，其中状态表示激活的子任务，转移依赖于子任务结果。
在具有不同非线性度、随机性和部分可观测性的基准环境中应用该框架，以评估性能。

实验结果

研究问题

RQ1是否可以在不进行完整系统辨识的情况下，从专家演示中可靠地推断出子任务结构？
RQ2通过子任务分割实现的分层奖励设计，在长时域强化学习与延迟奖励任务中如何提升学习效率？
RQ3与标准IRL和延迟奖励下的强化学习相比，HIRL在收敛速度和成功率方面提升了多少？
RQ4与基线方法相比，HIRL在部分状态观测和环境噪声下的鲁棒性如何？
RQ5HIRL学习到的分层结构在保持全局顺序一致性的同时，能否实现局部奖励优化？

主要发现

与最大熵逆强化学习（MaxEnt IRL）相比，HIRL在训练中实现了最高6倍的收敛速度提升，其中在并行停车和弹珠台任务中收敛速度最快。
在全状态观测的并行停车任务中，HIRL在比MaxEnt IRL少32%的时间步内达到80%的成功率。
在部分状态观测（仅位置和方向）条件下，HIRL保持了收敛性，并实现了高于IRL的更高成功率，而IRL未能收敛。
HIRL学习到的奖励函数对障碍物位置的1个标准差随机扰动具有鲁棒性，收敛速率保持相似。
除一个基准环境（Two-Rooms）外，HIRL在收敛速度（AUC）和达到的最大奖励方面均优于其他方法。
在具有已知真实值的领域中，HIRL达到的奖励在完美先验知识可获得最优奖励的10%以内。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。