QUICK REVIEW

[论文解读] A Unified Bellman Optimality Principle Combining Reward Maximization and Empowerment

Felix Leibfried, Sergio Pascual-Díaz|arXiv (Cornell University)|Jan 1, 2019

Reinforcement Learning in Robotics被引用 10

一句话总结

本文提出了一种统一的贝尔曼最优性原理，将内在赋能（intrinsic empowerment）与外部奖励最大化相结合，用于强化学习。通过将信息论控制与标准的基于价值的学习相结合，该方法使离策略的演员-critic算法在连续控制任务（MuJoCo）中实现了更优的初始性能和最终性能，优于当前最先进的无模型方法，且无需密集奖励塑造。

ABSTRACT

Empowerment is an information-theoretic method that can be used to intrinsically motivate learning agents. It attempts to maximize an agent's control over the environment by encouraging visiting states with a large number of reachable next states. Empowered learning has been shown to lead to complex behaviors, without requiring an explicit reward signal. In this paper, we investigate the use of empowerment in the presence of an extrinsic reward signal. We hypothesize that empowerment can guide reinforcement learning (RL) agents to find good early behavioral solutions by encouraging highly empowered states. We propose a unified Bellman optimality principle for empowered reward maximization. Our empowered reward maximization approach generalizes both Bellman’s optimality principle as well as recent information-theoretical extensions to it. We prove uniqueness of the empowered values and show convergence to the optimal solution. We then apply this idea to develop off-policy actor-critic RL algorithms which we validate in high-dimensional continuous robotics domains (MuJoCo). Our methods demonstrate improved initial and competitive final performance compared to model-free state-of-the-art techniques.

研究动机与目标

为解决强化学习中稀疏或延迟的外部奖励问题，通过整合内在赋能作为引导信号。
开发一个统一的理论框架，统一经典贝尔曼最优性与赋能等信息论扩展。
使离策略深度强化学习智能体能够利用赋能价值函数在训练初期发现有效行为。
证明赋能价值函数的唯一性，并在所提出的原理下建立向最优策略收敛的理论保证。
在高维连续控制环境中验证该方法，展示其在样本效率和最终性能方面的提升。

提出的方法

提出一种统一的贝尔曼最优性方程，将外部奖励的期望回报与状态-动作转移分布的熵（即赋能）相结合。
引入一种价值函数，同时最大化即时奖励与未来控制能力（即可达下一状态的数量）。
推导出一种广义的贝尔曼更新，保留经典Q-learning的结构，同时引入信息论项以实现赋能。
采用离策略演员-critic算法，其中评论家估计统一的价值函数，演员基于统一目标的梯度进行更新。
使用变分推断在高维连续动作空间中近似转移熵，以实现可扩展的计算。
采用双重优化方案，在训练过程中平衡奖励最大化与赋能目标。

实验结果

研究问题

RQ1赋能能否作为有意义的内在信号，引导探索并改善在存在外部奖励情况下的早期学习？
RQ2如何正式扩展贝尔曼最优性原理，使其在统一框架下同时包含奖励最大化与赋能？
RQ3在连续控制任务背景下，所提出的统一原理是否能产生唯一且收敛的解？
RQ4将赋能与外部奖励相结合，在多大程度上能提升深度强化学习中的样本效率与最终性能？
RQ5离策略演员-critic算法能否有效利用统一价值函数，实现稳定且高效的训练？

主要发现

所提出的统一贝尔曼最优性原理确保了赋能价值函数的唯一性，并保证收敛至最优策略。
与当前最先进的无模型强化学习算法相比，该方法在稀疏奖励环境中的初始学习性能显著提升。
在MuJoCo连续控制基准测试中，赋能奖励最大化方法在训练初期和最终性能指标上均优于基线方法。
赋能的整合带来了更鲁棒的探索能力，使智能体无需依赖密集奖励塑造即可发现复杂行为。
离策略演员-critic实现展现出稳定的训练动态，并在长时序中实现有效的信用分配。
实证结果表明，采用统一原理训练的智能体表现出更高的状态-动作熵，表明其具备更强的控制能力与更高的探索效率。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。