Skip to main content
QUICK REVIEW

[论文解读] DAC: The Double Actor-Critic Architecture for Learning Options

Shangtong Zhang, Shimon Whiteson|arXiv (Cornell University)|Apr 29, 2019
Reinforcement Learning in Robotics参考文献 38被引用 31
一句话总结

本文提出DAC(双Actor-Critic)架构,将选项框架重新表述为两个增强型MDP,从而实现任意策略优化算法在无需修改情况下的直接应用,以实现对选项内策略和主策略的选项内学习。DAC在具有挑战性的机器人仿真任务的迁移学习中实现了最先进性能,优于无层次结构的基线方法以及先前基于梯度的选项学习方法。

ABSTRACT

We reformulate the option framework as two parallel augmented MDPs. Under this novel formulation, all policy optimization algorithms can be used off the shelf to learn intra-option policies, option termination conditions, and a master policy over options. We apply an actor-critic algorithm on each augmented MDP, yielding the Double Actor-Critic (DAC) architecture. Furthermore, we show that, when state-value functions are used as critics, one critic can be expressed in terms of the other, and hence only one critic is necessary. We conduct an empirical study on challenging robot simulation tasks. In a transfer learning setting, DAC outperforms both its hierarchy-free counterpart and previous gradient-based option learning algorithms.

研究动机与目标

  • 解决选项框架中基于策略的选项内学习在理论和实证方面支持不足的问题。
  • 克服现有基于梯度的选项学习算法的局限性,即需要为特定SMDP设计定制化结构,从而无法直接使用先进的MDP策略优化方法。
  • 利用标准策略优化算法,实现对选项内策略和主策略的数据高效、在线学习。
  • 建立统一且显式的选项学习问题形式化,将其表述为两个增强型MDP,以促进模块化与可扩展的学习。

提出的方法

  • 将选项框架的半马尔可夫决策过程(SMDP)重新表述为两个并行的增强型MDP,分别用于选项内策略学习和主策略学习。
  • 在每个增强型MDP上独立应用Actor-Critic算法,形成双Actor-Critic(DAC)架构。
  • 证明当使用状态值函数作为评论家时,一个评论家可表示为另一个评论家的函数,从而将所需评论家数量减少至一个。
  • 采用调用-返回执行模型,确保在选项执行期间对主策略进行在线更新,从而实现选项内学习。
  • 直接在增强型MDP上应用标准策略优化算法(如PPO),无需架构修改。
  • 显式建模选项终止函数与主策略之间的相互作用,作为单一分层策略 ${\pi}^{\mathcal{H}}$ 的组成部分。

实验结果

研究问题

  • RQ1能否开发一种统一的、开箱即用的框架,利用标准策略优化算法在选项框架中学习选项内策略和主策略?
  • RQ2所提出的两个增强型MDP的重新表述是否能实现在选项执行期间对主策略的数据高效、在线学习?
  • RQ3在标准值函数假设下,两个增强型MDP中的评论家组件是否可以共享或减少数量?
  • RQ4DAC架构在迁移学习设置下是否优于无层次结构基线方法和先前基于梯度的选项学习方法?

主要发现

  • DAC实现了任意策略优化算法(如PPO)的开箱即用,支持以选项内、在线方式学习选项内策略和主策略。
  • 在具有挑战性的机器人仿真任务的迁移学习设置中,DAC + PPO优于无层次结构的PPO基线方法以及先前基于梯度的选项学习算法。
  • 作者证明,当使用状态值函数作为评论家时,DAC架构中的一个评论家可表示为另一个评论家的函数,从而实现单个共享评论家,降低计算成本。
  • 该方法隐式学习到活跃选项的终止概率随时间推移而增加,与先前研究的观察结果一致,表明实现了有效的选项管理。
  • 对两个增强型MDP的显式形式化提供了概念上的清晰性,并支持使用此前与选项学习不兼容的先进策略优化技术。
  • 本研究证明,一步建模(DAC中采用)比两步建模更具数据效率,并支持在线、选项内学习,这一区别在文献中此前未被认识到。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。