Skip to main content
QUICK REVIEW

[论文解读] Learning to Explore with Meta-Policy Gradient

Tian-Bing Xu, Qiang Liu|arXiv (Cornell University)|Mar 13, 2018
Reinforcement Learning in Robotics参考文献 27被引用 26
一句话总结

本文提出了一种元策略梯度算法,为DDPG学习一个独立且自适应的探索策略,从而实现超越局部噪声注入的全局探索。通过将探索策略视为元学习器,以优化主DDPG策略的性能增益为目标,该方法在多个MuJoCo控制任务中显著提升了样本效率和性能表现,优于标准DDPG和高斯探索方法。

ABSTRACT

The performance of off-policy learning, including deep Q-learning and deep deterministic policy gradient (DDPG), critically depends on the choice of the exploration policy. Existing exploration methods are mostly based on adding noise to the on-going actor policy and can only explore \emph{local} regions close to what the actor policy dictates. In this work, we develop a simple meta-policy gradient algorithm that allows us to adaptively learn the exploration policy in DDPG. Our algorithm allows us to train flexible exploration behaviors that are independent of the actor policy, yielding a \emph{global exploration} that significantly speeds up the learning process. With an extensive study, we show that our method significantly improves the sample-efficiency of DDPG on a variety of reinforcement learning tasks.

研究动机与目标

  • 为解决DDPG等异策略强化学习方法中局部探索的局限性,这些方法依赖于固定的噪声注入(如高斯或Ornstein-Uhlenbeck噪声),从而将探索限制在当前策略附近的邻近状态。
  • 开发一种元学习框架,使探索策略能够自适应地生成高质量且多样化的经验数据,且独立于智能体策略。
  • 通过训练一个指导主DDPG策略的随机探索策略,提升连续控制任务中的样本效率和学习速度。
  • 证明全局、基于策略的探索在回报和收敛速度方面优于传统的基于噪声的探索。

提出的方法

  • 该方法引入了一种元策略梯度算法,其中探索策略(教师)根据主DDPG策略(学生)在教师收集的轨迹上训练后的性能提升进行优化。
  • 探索策略使用在线策略梯度进行训练,其奖励信号为学生策略在教师收集的数据上微调后的回报提升。
  • 教师策略以最大化学生策略性能的期望增益为目标生成随机动作,从而实现对状态空间中多样化且潜在有益区域的探索。
  • 学生策略在教师收集的经验上进行训练,其性能在每次更新前后均被评估,以计算用于元优化的性能提升信号。
  • 该方法将探索与智能体策略解耦,使教师能够进行全局探索,而非局限于当前策略行为的局部区域。
  • 该方法使用t-SNE可视化分析状态访问分布,结果表明教师探索了多样化模式,而学生则从互补区域中学习。

实验结果

研究问题

  • RQ1元学习的探索策略是否能显著提升异策略深度强化学习中的样本效率?
  • RQ2通过学习的教师策略实现的全局探索,与DDPG中使用固定噪声注入的局部探索相比,表现如何?
  • RQ3教师策略在多大程度上能引导学生发现新颖且高回报的行为?
  • RQ4元策略梯度框架是否能实现探索策略根据学生学习进度自适应改进?
  • RQ5教师策略是否能探索与学生关注区域互补的多样化状态区域,从而实现更快、更稳定的训练?

主要发现

  • 在Hopper环境中,所提方法的平均回报达到7718,远超标准DDPG基线的2795,显著提升了样本效率。
  • 在Pendulum任务中,该方法在200,000步内收敛,平均回报达8530,高于DDPG的2830,表明学习速度更快且更稳定。
  • 教师策略表现出高熵和多样化状态访问模式,在状态空间中覆盖了多个模式,尤其在Inverted Double Pendulum任务中表现明显,与DDPG的局部探索形成对比。
  • 学生策略持续访问与教师互补的状态区域,实现了对多样化行为的系统性学习,提升了整体策略的鲁棒性。
  • 在Reacher任务中,该方法的回报与DDPG相当,但方差更低,表明训练更稳定。
  • t-SNE可视化证实,教师实现了全局探索并多样化覆盖状态空间的各个模式,而学生则从这些多样化示范中学习,从而实现更优性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。