QUICK REVIEW

[论文解读] Maximum Entropy Deep Inverse Reinforcement Learning

Markus Wulfmeier, Peter Ondrúška|arXiv (Cornell University)|Jul 17, 2015

Reinforcement Learning in Robotics参考文献 26被引用 286

一句话总结

本文提出最大熵深度逆强化学习（DeepIRL），一种利用全卷积神经网络（FCNNs）从专家演示中学习复杂非线性奖励函数的框架。通过利用最大熵逆强化学习目标，该方法实现了端到端训练，具备完全可微性，其在标准基准上的表现达到最先进水平，并在具有高度变化奖励结构的新基准上显著优于先前方法，同时保持与演示数量无关的计算效率。

ABSTRACT

This paper presents a general framework for exploiting the representational capacity of neural networks to approximate complex, nonlinear reward functions in the context of solving the inverse reinforcement learning (IRL) problem. We show in this context that the Maximum Entropy paradigm for IRL lends itself naturally to the efficient training of deep architectures. At test time, the approach leads to a computational complexity independent of the number of demonstrations, which makes it especially well-suited for applications in life-long learning scenarios. Our approach achieves performance commensurate to the state-of-the-art on existing benchmarks while exceeding on an alternative benchmark based on highly varying reward structures. Finally, we extend the basic architecture - which is equivalent to a simplified subclass of Fully Convolutional Neural Networks (FCNNs) with width one - to include larger convolutions in order to eliminate dependency on precomputed spatial features and work on raw input representations.

研究动机与目标

为解决逆强化学习中线性与基于核的奖励函数近似方法的局限性，实现非线性、可泛化的函数学习。
通过确保计算复杂度与演示数量无关，实现在终身学习场景中的高效推理。
通过使用更宽的卷积滤波器直接从原始输入学习任务相关表征，消除对手工设计空间特征的依赖。
将最大熵逆强化学习框架扩展至深度神经网络，实现具有完全可微性与可扩展性的端到端训练。
在复杂且高度变化的奖励结构上展示优越性能，而先前方法在此类场景中表现不佳或性能不足。

提出的方法

将最大熵逆强化学习目标适配至深度神经网络，得到一个适用于端到端训练的完全可微损失函数。
采用宽度为一的全卷积神经网络（FCNNs）架构，将奖励函数建模为空间图，保留空间结构。
将基础FCNN扩展为包含更宽卷积滤波器的结构，使网络能够直接从原始输入学习空间特征，无需预计算特征。
使用全卷积架构生成与输入相同空间维度的密集奖励图，支持密集预测任务。
使用专家演示进行网络训练，通过优化在推断奖励函数下观测轨迹的似然性来实现。
通过整个网络进行反向传播，联合优化特征提取与奖励预测，实现联合端到端学习。

实验结果

研究问题

RQ1深度神经网络能否在保持计算效率的同时，有效近似复杂且非线性的奖励函数？
RQ2由于其完全可微的目标，最大熵逆强化学习框架是否天然支持深度架构的训练？
RQ3从原始输入进行端到端学习是否能消除对手工设计空间特征的依赖，同时不损失性能？
RQ4与最先进方法相比，该方法在奖励结构复杂度增加时的可扩展性如何？
RQ5在演示数量持续增长的终身学习设置中，模型能否实现有效泛化？

主要发现

所提出的DeepIRL框架在Objectworld和Binaryworld等标准IRL基准上的表现与最先进方法相当。
在具有高度变化奖励结构的新基准上，DeepIRL显著优于现有方法，展现出对复杂特征交互的优越建模能力。
无论演示数量如何，该方法的推理复杂度保持恒定，使其在机器人终身学习中极具适用性。
当使用原始输入和更宽的卷积滤波器时，模型能够端到端学习空间特征，并收敛至与最优设计特征相当的性能。
该方法在使用原始输入和宽滤波器时需要更多训练数据，但随着专家演示数量的增加，性能持续提升，趋近于预定义特征的性能。
该框架具有高度可适应性，支持多种FCNN架构，并可未来与自编码器预训练等技术结合，以提升样本效率。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。