Skip to main content
QUICK REVIEW

[论文解读] Ray Interference: a Source of Plateaus in Deep Reinforcement Learning

Tom Schaul, Diana Borsa|arXiv (Cornell University)|Apr 25, 2019
Reinforcement Learning in Robotics参考文献 34被引用 39
一句话总结

本文分析深度强化学习中的学习动力学现象,其中数据生成与共享函数逼近器之间的耦合导致负干扰,进而造成性能平台期(ray interference)。它刻画了条件、揭示与鞍点的联系,并讨论了补救措施。

ABSTRACT

Rather than proposing a new method, this paper investigates an issue present in existing learning algorithms. We study the learning dynamics of reinforcement learning (RL), specifically a characteristic coupling between learning and data generation that arises because RL agents control their future data distribution. In the presence of function approximation, this coupling can lead to a problematic type of 'ray interference', characterized by learning dynamics that sequentially traverse a number of performance plateaus, effectively constraining the agent to learn one thing at a time even when learning in parallel is better. We establish the conditions under which ray interference occurs, show its relation to saddle points and obtain the exact learning dynamics in a restricted setting. We characterize a number of its properties and discuss possible remedies.

研究动机与目标

  • Motivate and define ray interference as a learning-dynamics issue in RL with function approximation.
  • 分析一个最小的两个上下文 bandit 设置以推导精确的学习动力学。
  • 表征何时出现平台期,以及 winner-take-all 区域如何促成缓慢学习。
  • 将该现象推广到具有因子化目标和 RL 中的多个组件的情形。
  • 讨论 ray interference 的普遍性、检测方法及潜在的补救措施。

提出的方法

  • 对最简单的 (K x n) bandit 进行 on-policy 梯度更新建模,以推导精确的连续时间动力学。
  • 通过分量梯度的余弦相似度来定义干扰并识别鞍点。
  • 推导一个 (2x2) bandit 的梯度动力学,以展示在鞍点附近的固定点和平台期。
  • 引入通过高阶导数来定义平台期的概念,并表征它们的吸引盆地。
  • 推广到具有耦合组件的因子化目标,并分析平台期和 WTA 区域的条件。
  • 将 RL 的耦合与监督学习及离策略变体进行比较,以说明耦合和干扰如何推动平台期。)

实验结果

研究问题

  • RQ1在具有共享函数近似器的 RL 中,ray interference 和平台期在何种条件下出现?
  • RQ2目标组件之间的干扰以及性能与学习进展之间的耦合如何相互作用以产生平台期?
  • RQ3是否可以在简单模型中预测或检测 ray interference,并将其推广到更广义的 RL 设定?
  • RQ4哪些补救措施可以减少干扰并在实践中解耦学习动力学?
  • RQ5随着组件数量增加或采用不同表示,ray interference 的尺度如何变化?

主要发现

  • 当组件之间的负干扰以及对未来数据生成的耦合导致学习轨迹经过接近鞍点的位置时,会出现 ray interference,进而产生缓慢的平台期。
  • 在一个 (2x2) bandit 中,梯度显示持续的负干扰,在角点处出现固定点,(0,1) 和 (1,0) 处为鞍点。
  • 平台期出现在学习加速度符号改变的拐点上,其平坦度与在这些点附近的学习进展斜率成正比。
  • 使用表格表示或离策略/监督设置时,ray interference 得到缓解或消除,表明耦合和干扰是关键成分。
  • 增加组件数量 K 可以扩大和加剧平台期,在完全干扰的设置中,平台期随学习阶段呈指数级增长。
  • 离策略学习或破坏当前策略数据生成的数据集可以降低耦合,从而缓解平台期。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。