Skip to main content
QUICK REVIEW

[论文解读] Meta-Q-Learning

Rasool Fakoor, Pratik Chaudhari|arXiv (Cornell University)|Apr 30, 2020
Data Stream Mining Techniques被引用 7
一句话总结

Meta-Q-Learning (MQL) 是一种新颖的离策略元强化学习算法,通过引入表示过往轨迹的上下文变量,采用多任务目标进行元训练,并利用倾向性得分估计实现离策略更新来复用过往经验,从而在连续控制基准测试中实现了最先进性能,有效重用元训练数据以实现快速适应。

ABSTRACT

This paper introduces Meta-Q-Learning (MQL), a new off-policy algorithm for meta-Reinforcement Learning (meta-RL). MQL builds upon three simple ideas. First, we show that Q-learning is competitive with state of the art meta-RL algorithms if given access to a context variable that is a representation of the past trajectory. Second, using a multi-task objective to maximize the average reward across the training tasks is an effective method to meta-train RL policies. Third, past data from the meta-training replay buffer can be recycled to adapt the policy on a new task using off-policy updates. MQL draws upon ideas in propensity estimation to do so and thereby amplifies the amount of available data for adaptation. Experiments on standard continuous-control benchmarks suggest that MQL compares favorably with state of the art meta-RL algorithms.

研究动机与目标

  • 开发一种简单但高效的离策略元强化学习算法,以提升样本效率和适应速度。
  • 探究在引入编码过往轨迹信息的上下文变量后,Q-learning 是否能在元强化学习中具备竞争力。
  • 探索多任务目标在跨多样化任务训练元策略时的有效性。
  • 通过离策略更新实现对过往元训练数据的高效重用,以实现新任务上的快速适应。
  • 通过利用倾向性估计校正重放缓冲中经验的分布偏移,提升元强化学习中的数据效率。

提出的方法

  • 引入源自过往轨迹的上下文变量,以条件化 Q-learning 更新,实现针对特定任务的策略适应。
  • 采用多任务目标,在策略优化过程中最大化所有元训练任务的平均回报。
  • 利用包含来自多个任务的过往经验的元训练回放缓冲区,以支持离策略适应。
  • 应用倾向性评分对回放缓冲区中的转移样本进行重加权,以校正离策略更新过程中的分布偏移。
  • 结合离策略 Q-learning 与上下文条件化的值函数网络,实现仅用极少数据即可快速适应新任务。
  • 采用带目标网络的双 Q-learning 更新规则,以稳定训练并提升样本效率。

实验结果

研究问题

  • RQ1通过引入编码过往轨迹信息的上下文变量,能否使 Q-learning 在元强化学习中具备竞争力?
  • RQ2多任务目标在训练能够跨多样化任务泛化的元策略方面有多有效?
  • RQ3在使用离策略更新时,过往元训练数据能在多大程度上被有效复用于快速适应?
  • RQ4倾向性估计是否能提升元强化学习中离策略适应的稳定性和性能?
  • RQ5MQL 在标准连续控制基准测试中与最先进元强化学习算法相比表现如何?

主要发现

  • Meta-Q-Learning 在标准连续控制基准测试中实现了最先进性能,优于现有元强化学习算法。
  • 上下文变量的整合显著提升了 Q-learning 在元强化学习中的样本效率和适应速度。
  • 多任务目标促使元策略具备更强的泛化能力,可在元测试阶段良好适应多样化任务。
  • 通过离策略更新与倾向性校正复用过往元训练数据,可显著提升数据效率并降低样本复杂度。
  • 使用倾向性估计可稳定离策略更新,并在重用不同任务经验时提升性能。
  • 由于有效重用经验与上下文感知学习,MQL 展现出强大的泛化能力和快速适应能力,尤其在低数据场景下表现突出。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。