Skip to main content
QUICK REVIEW

[论文解读] Approximate Inference and Stochastic Optimal Control

Konrad Rawlik, Marc Toussaint|arXiv (Cornell University)|Sep 20, 2010
Reinforcement Learning in Robotics参考文献 33被引用 20
一句话总结

本文将随机最优控制重新表述为近似推理问题,从而实现一类新型的迭代式、无模型、离策略强化学习算法。通过利用对偶公式的自然松弛,该方法在离散和连续控制任务中均能收敛至近似最优策略,包括线性二次高斯(LQG)摆动问题,即使从不稳定的初始策略开始,也能实现稳定的训练。

ABSTRACT

We propose a novel reformulation of the stochastic optimal control problem as an approximate inference problem, demonstrating, that such a interpretation leads to new practical methods for the original problem. In particular we characterise a novel class of iterative solutions to the stochastic optimal control problem based on a natural relaxation of the exact dual formulation. These theoretical insights are applied to the Reinforcement Learning problem where they lead to new model free, off policy methods for discrete and continuous problems.

研究动机与目标

  • 开发一种新的理论框架,统一随机最优控制与概率推理。
  • 从该重新表述中推导出迭代式、无模型、离策略强化学习算法。
  • 在连续控制问题(包括LQG系统)上展示其实际适用性。
  • 证明即使从不稳定的初始策略开始,算法也能收敛至近似最优策略。
  • 通过在连续设置中实现解析解,超越先前工作,避免使用蒙特卡洛近似。

提出的方法

  • 采用变分贝叶斯方法,将随机最优控制问题重新表述为近似推理问题。
  • 推导出一种松弛的对偶公式,支持通过自然梯度更新实现迭代优化。
  • 应用期望最大化框架,推导出用于控制问题的一类新型迭代解法。
  • 提出LSΨ算法用于连续控制,使用基函数表示策略参数,并通过轨迹采样更新参数。
  • 采用带约束的回合采样策略,通过方差基线调整确保稳定学习和数值稳定性。
  • 使用蒙特卡洛估计期望代价和策略误差的L2范数以进行评估。

实验结果

研究问题

  • RQ1在不引入额外假设的前提下,能否将随机最优控制精确地重新表述为近似推理问题?
  • RQ2如何对随机控制的对偶公式进行松弛,以获得实用的迭代求解方法?
  • RQ3该重新表述能否催生适用于离散与连续问题的新一代无模型、离策略强化学习算法?
  • RQ4当从不稳定的策略初始化时,所得算法的收敛特性如何?
  • RQ5在连续控制设置中能否推导出解析解,从而避免昂贵的数值或蒙特卡洛近似?

主要发现

  • LSΨ算法在连续LQG摆动控制问题中成功学习到近似最优策略增益,表现为策略误差L2范数随时间持续减小。
  • LSΨ策略下的期望代价收敛至最优值,尽管初始策略性能显著较差,但其性能与最先进方法相当。
  • 即使初始策略不稳定,算法在约600–700个回合后实现系统稳定,表现为回合长度持续增加。
  • 该方法在无需初始策略稳定或代价函数折扣的情况下实现收敛,优于先前方法。
  • 基函数的使用使得连续情况下可实现解析更新,从而减少对计算成本高昂的蒙特卡洛方法的依赖。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。