Skip to main content
QUICK REVIEW

[论文解读] Dual Policy Iteration

Wen Sun, Geoffrey J. Gordon|arXiv (Cornell University)|May 28, 2018
Reinforcement Learning in Robotics被引用 25
一句话总结

本文提出双策略迭代(Dual Policy Iteration, DPI),一种新颖的近似策略迭代框架,通过交替优化一种反应式策略(如深度神经网络)与一种非反应式、基于模型的专家策略(例如通过局部最优控制获得)实现。该方法通过利用局部动力学模型和系统化的基于模型搜索,在样本效率方面显著优于标准的策略梯度和演员-critic基线方法,同时具备理论收敛保证,并在连续控制任务中得到实证验证。

ABSTRACT

Recently, a novel class of Approximate Policy Iteration (API) algorithms have demonstrated impressive practical performance (e.g., ExIt from [2], AlphaGo-Zero from [27]). This new family of algorithms maintains, and alternately optimizes, two policies: a fast, reactive policy (e.g., a deep neural network) deployed at test time, and a slow, non-reactive policy (e.g., Tree Search), that can plan multiple steps ahead. The reactive policy is updated under supervision from the non-reactive policy, while the non-reactive policy is improved with guidance from the reactive policy. In this work we study this Dual Policy Iteration (DPI) strategy in an alternating optimization framework and provide a convergence analysis that extends existing API theory. We also develop a special instance of this framework which reduces the update of non-reactive policies to model-based optimal control using learned local models, and provides a theoretically sound way of unifying model-free and model-based RL approaches with unknown dynamics. We demonstrate the efficacy of our approach on various continuous control Markov Decision Processes.

研究动机与目标

  • 开发一种通用的双策略迭代(DPI)框架,通过交替优化反应式与非反应式策略,统一模型自由与基于模型的强化学习。
  • 提供扩展现有API理论的收敛性分析,证明当基于模型的搜索成功时,DPI的每轮迭代策略改进量大于保守策略迭代(CPI)。
  • 通过整合局部模型学习、局部最优控制与模仿学习,实现在动力学未知情况下的样本高效学习。
  • 在多个环境中验证DPI在连续控制与鲁棒策略优化中的有效性。
  • 分析局部模型预测误差对策略改进的影响,表明局部准确的动力学模型足以实现有效的策略更新。

提出的方法

  • 该框架在基于模型的最优控制(MBOC)计算出的非反应式策略与通过模仿MBOC策略更新的反应式策略之间交替进行优化。
  • 从当前反应式策略的轨迹中学习局部动力学模型,使MBOC能够计算出用于引导的局部最优策略。
  • 通过在MBOC策略下的期望优势最大化目标,使用自然梯度下降法更新反应式策略,以促进模仿。
  • 采用两阶段循环:(1) 拟合局部模型并计算MBOC策略;(2) 利用MBOC策略的动作价值函数,通过模仿更新反应式策略。
  • 在鲁棒策略优化中,框架联合优化反应式策略,以模仿在多个训练环境上计算出的MBOC策略。
  • 理论分析表明,当MBOC成功时,DPI的每轮迭代策略改进量超过CPI,且改进量随时间跨度呈二次方增长。

实验结果

研究问题

  • RQ1一种在基于模型搜索与策略模仿之间交替的双策略迭代框架,是否能在每轮迭代中实现比标准API方法更大的策略改进?
  • RQ2在DPI框架中,局部学习的动力学模型预测误差如何影响策略改进?
  • RQ3将局部基于模型的搜索与模仿学习相结合,是否能提升在动力学未知的强化学习中的样本效率?
  • RQ4DPI框架能否扩展至鲁棒策略优化,使单一策略能在多个环境中泛化?
  • RQ5在局部模型准确的前提下,DPI框架的收敛性与改进量可提供哪些理论保证?

主要发现

  • 所提出的DPI算法在连续控制任务中收敛更快且样本效率更高,相比TRPO-GAE与保守策略迭代(CPI)使用更少的训练回合达到更高性能。
  • 在鲁棒策略优化中,仅在单一环境训练的非鲁棒变体出现过拟合并无法泛化,而基于DPI的鲁棒方法在三个未见测试环境中均表现出良好泛化能力。
  • 该方法表明,仅在当前策略的状态-动作分布下准确的局部动力学模型,即使全局模型不完美,也足以实现有意义的策略改进。
  • 当MBOC成功时,DPI的每轮迭代策略改进量超过CPI,原因在于其使用了结构化、多步前瞻策略,而非局部梯度更新。
  • 由于基于模型的搜索实现了系统性探索,该算法在稀疏奖励或高维动作空间环境中表现出显著的样本效率提升。
  • 实证结果证实,将MBOC与模仿学习结合,相比随机探索或标准策略梯度方法,能带来更稳定且更有效的策略更新。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。