[论文解读] Meta-Inverse Reinforcement Learning with Probabilistic Context Variables
该论文提出了一种用于元逆强化学习的概率嵌入方法(PEMIRL),这是一种元-IRL框架,通过深度潜在变量模型从非结构化、异构的示范中学习解耦的、可泛化的奖励函数。通过从单个示范中推断出一个概率上下文变量,PEMIRL 实现了在新任务上对未见过的动力学的少样本奖励泛化,在连续控制环境中优于最先进的人工智能模仿与逆强化学习方法。
Providing a suitable reward function to reinforcement learning can be difficult in many real world applications. While inverse reinforcement learning (IRL) holds promise for automatically learning reward functions from demonstrations, several major challenges remain. First, existing IRL methods learn reward functions from scratch, requiring large numbers of demonstrations to correctly infer the reward for each task the agent may need to perform. Second, existing methods typically assume homogeneous demonstrations for a single behavior or task, while in practice, it might be easier to collect datasets of heterogeneous but related behaviors. To this end, we propose a deep latent variable model that is capable of learning rewards from demonstrations of distinct but related tasks in an unsupervised way. Critically, our model can infer rewards for new, structurally-similar tasks from a single demonstration. Our experiments on multiple continuous control tasks demonstrate the effectiveness of our approach compared to state-of-the-art imitation and inverse reinforcement learning methods.
研究动机与目标
- 为解决传统逆强化学习在每个任务上需要大量示范所导致的数据效率低下问题。
- 仅使用单个示范,实现对新结构相似任务的奖励函数泛化。
- 从非结构化、异构的示范中学习稳健且解耦的奖励函数,无需预定义的任务分组。
- 将元-IRL 扩展至具有高维状态-动作空间的复杂连续控制环境。
- 弥合少样本奖励推理与从非结构化多任务示范中学习之间的差距。
提出的方法
- PEMIRL 将基于上下文的元学习、深度潜在变量模型与最大熵逆强化学习整合到一个统一的图模型中。
- 采用变分推理框架,从示范轨迹中推断出一个概率上下文变量,以编码特定任务的结构。
- 通过基于最大熵 IRL 的可微分目标,联合优化奖励函数泛化与上下文变量推断。
- 将潜在上下文变量基于单个示范进行条件化,使模型能够推断出潜在的任务目标,并泛化到新的动力学环境。
- 该方法采用生成模型重建专家示范,同时使用判别器区分专家轨迹与策略生成的轨迹,类似于 AIRL 的设置。
- 该框架在无任务标签的非结构化多任务示范上进行端到端训练,实现对新任务的零样本适应。
实验结果
研究问题
- RQ1元-IRL 模型能否从单个新任务的示范中推断出解耦且可泛化的奖励函数?
- RQ2当仅提供单个示范时,该模型在环境动力学发生改变的新任务上泛化能力如何?
- RQ3该模型能否在无任务标注的情况下,从非结构化、异构的示范中学习稳健的奖励函数?
- RQ4在少样本设置下,该模型的奖励泛化能力与最先进的人工智能模仿与逆强化学习方法相比如何?
- RQ5与标准 IRL 或 GAN 基础方法相比,使用概率上下文变量是否能提升从动力学中解耦奖励的能力?
主要发现
- 在禁用的 Ant 走路任务中,PEMIRL 的平均回报达到 152.62 ± 11.75,显著优于 Meta-InfoGAIL(152.62 vs. -38.73)和 AIRL(-76.21)。
- 在 Point-Maze-Shift 任务中,PEMIRL 的回报为 -9.04 ± 1.09,优于 Meta-IL(-28.61)和 Meta-InfoGAIL(-29.72)。
- 该方法成功使强化学习智能体通过从单个示范中推断出真实目标,绕过迷宫中的障碍物,而 AIRL 因学习了跨任务的平均奖励而失败。
- Meta-InfoGAIL 的判别器输出收敛到均匀分布,提供了无信息的奖励,导致策略性能极差。
- PEMIRL 学习到了解耦的奖励函数,正确捕捉了潜在目标,从而在新动力学下实现了有效的策略训练。
- 该模型在复杂连续控制环境(包括 Point-Maze、Ant、Sweeper 和 Sawyer Pusher)中表现出良好的可扩展性与有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。