Skip to main content
QUICK REVIEW

[论文解读] Reinforcement Learning and Control as Probabilistic Inference: Tutorial and Review

Sergey Levine|ArXiv.org|May 2, 2018
Reinforcement Learning in Robotics参考文献 41被引用 374
一句话总结

论文展示如何将最大熵强化学习与控制问题构建为图模型中的概率推断,针对确定性动力学推导精确推断,针对随机动力学采用变分方法,与深度强化学习和规划有联系。

ABSTRACT

The framework of reinforcement learning or optimal control provides a mathematical formalization of intelligent decision making that is powerful and broadly applicable. While the general form of the reinforcement learning problem enables effective reasoning about uncertainty, the connection between reinforcement learning and inference in probabilistic models is not immediately obvious. However, such a connection has considerable value when it comes to algorithm design: formalizing a problem as probabilistic inference in principle allows us to bring to bear a wide array of approximate inference tools, extend the model in flexible and powerful ways, and reason about compositionality and partial observability. In this article, we will discuss how a generalization of the reinforcement learning or optimal control problem, which is sometimes termed maximum entropy reinforcement learning, is equivalent to exact probabilistic inference in the case of deterministic dynamics, and variational inference in the case of stochastic dynamics. We will present a detailed derivation of this framework, overview prior work that has drawn on this and related ideas to propose new reinforcement learning and control algorithms, and describe perspectives on future research.

研究动机与目标

  • 提供一个统一的带有熵项的概率图模型(PGM)表述,用于强化学习和控制;
  • 展示最优轨迹如何在该 PGM 中作为推断出现,并推导相应的向后信息与软值函数;
  • 对比确定性和随机性动力学,强调需要变分推断以避免不现实的风险偏好动力学;
  • 阐明目标:当包含熵时,恢复最大熵 RL,并解释对奖励设计和策略学习的影响。

提出的方法

  • 通过引入一个辅助的最优性变量 O_t,p(O_t=1|s_t,a_t)=exp(r(s_t,a_t)),将 RL/控制目标扩展为最大熵形式;
  • 构建一个 PGM,使轨迹按 exp(sum_t r(s_t,a_t)) 加权,并对确定性动力学进行(精确)推断,或对随机动力学采用变分/基于推断的方法;
  • 推导向后信息 β_t(s_t,a_t) 和 β_t(s_t),以得到 p(a_t|s_t,O_1:T) 的表达,并展示与软 Q/V 函数的关系(Q(s,a)=r(s,a)+V(s'));
  • 给出对数空间的备份 Q 和 V,将其与确定性情况下的软贝尔曼备份联系起来,并讨论随机动力学下的风险偏好行为(通过变分修正来处理);
  • 讨论替代的模型形式(无向 CRF、温度参数 α)以及折扣因子,连接到标准 RL 与熵正则化 RL 的框架。

实验结果

研究问题

  • RQ1强化学习和最优控制如何 reformulate 在图模型中的概率推断?
  • RQ2在确定性与随机性动力学下,熵正则化目标的行为与解释是什么?
  • RQ3在控制即推断框架中,如何通过向后信息计算最优策略?
  • RQ4变分推断如何解决最大熵公式下随机动力学带来的风险偏好问题?
  • RQ5替代形式(CRF、温度、折扣因子)如何与标准 RL 和最大熵 RL 相联系?

主要发现

  • 最大熵形式的 RL/控制在确定性动力学下等同于精确推断,在随机动力学下等同于变分推断;
  • 通过向后信息 β_t(s_t,a_t) 和 β_t(s_t) 可以恢复最优策略,导出软 Q/V 函数;
  • 在对数空间中的软贝尔曼备份揭示了通过熵来驱动探索的时序性,以及在随机动力学下的风险偏好效应(通过概率修正来处理);
  • 一种变分推断方法通过固定动力学(冻结 p(s_{t+1}|s_t,a_t))并得到使用期望下一状态值的鲁棒备份,降低风险偏好行为;
  • 替代形式(无向 CRF、温度参数)允许在熵最大化与标准 RL 目标之间进行插值;折扣因子可以简单地加入。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。