[论文解读] Meta-Gradient Reinforcement Learning
本文提出了一种基于梯度的元学习方法,在线自适应回报函数的元参数,在 Atari 游戏上提升性能,在 200 百万帧下实现 57 款游戏的 state-of-the-art。
The goal of reinforcement learning algorithms is to estimate and/or optimise the value function. However, unlike supervised learning, no teacher or oracle is available to provide the true value function. Instead, the majority of reinforcement learning algorithms estimate and/or optimise a proxy for the value function. This proxy is typically based on a sampled and bootstrapped approximation to the true value function, known as a return. The particular choice of return is one of the chief components determining the nature of the algorithm: the rate at which future rewards are discounted; when and how values should be bootstrapped; or even the nature of the rewards themselves. It is well-known that these decisions are crucial to the overall success of RL algorithms. We discuss a gradient-based meta-learning algorithm that is able to adapt the nature of the return, online, whilst interacting and learning from the environment. When applied to 57 games on the Atari 2600 environment over 200 million frames, our algorithm achieved a new state-of-the-art performance.
研究动机与目标
- 在单一的持续进行的强化学习任务中自动适应回报设计的选择(如折扣因子、引导/自举)。
- 提出一种基于梯度的元学习算法,通过交叉验证的元目标在线调优元参数。
- 证明回报的自适应在大规模深度强化学习环境中能提升性能。
- 提供一个实用框架,通过把元参数条件化于价值函数/策略函数来处理非平稳性。
- 展示在 IMPALA 框架下以及 Atari 2600 基准上的可扩展性。
提出的方法
- 把网络参数 θ 的更新规则定义为 θ' = θ + f(τ, θ, η),其中 η 是元参数。
- 引入在线交叉验证以计算元梯度:∂J'(τ', θ', η')/∂η = (∂J'(τ', θ', η')/∂θ') · (dθ'/dη)。
- 用一个在线累积的 running trace z 来近似 dθ'/dη:z' = μ z + ∂f(τ, θ, η)/∂η,μ ∈ [0,1]。
- 通过在元目标上使用 SGD 来更新元参数 η:Δη = -β ∂J'(τ', θ', η')/∂θ' · z'。
- 通过对 η 求导来实例化回报的元梯度,针对 TD/λ 和 n-step 回报(例如 γ、λ)。
- 使用 Universal Value Function Approximation 风格的嵌入,将值网络和策略网络条件化于 η,以应对非平稳性:vθ^η(S) = vθ([S; eη]), πθα(S) = πθα([S; eη]).
- 结合 A2C 风格的演员-评论家机制,在实践中使用 RMSProp 和 V-trace 离策略修正;通过并行小批量和轨迹重用实现。
实验结果
研究问题
- RQ1元梯度是否可用于在强化学习在线学习过程中自动优化回报函数(如 γ、λ)?
- RQ2回报的在线元学习是否在大规模深度强化学习基准上带来性能提升?
- RQ3将策略和值函数条件化在元参数上的影响,以缓解非平稳性?
- RQ4在 Atari 2600 游戏上,所提出的元梯度方法与固定回报基线和其他元学习方法相比如何?
主要发现
| η | 人类起手(γ=0.99) | 人类起手(γ=0.995) | 无操作起手(γ=0.99) | 无操作起手(γ=0.995) |
|---|---|---|---|---|
| IMPALA | 144.4% | 211.9% | 191.8% | 257.1% |
| {λ} | 156.6% | 214.2% | 185.5% | 246.5% |
| {γ} | 233.2% | 267.9% | 280.9% | 275.5% |
| {γ,λ} | 221.6% | 292.9% | 242.6% | 287.6% |
- 与 IMPALA 基线相比,元梯度强化学习在 Atari 上显著提升了中位人类标准化分数。
- 对 γ、λ 或两者进行自适应相较于固定回报设置,在人类起手和无操作评估上均带来更大性能提升。
- 在某些设置下,带 γ 与 λ 的元梯度达到中位分数约为 293%(人类起手)和 288%(无操作)。
- 通过嵌入将值函数和策略条件化于元参数,相较于不进行条件化,性能有所提升。
- 在 2 亿帧的 Atari 上达到最先进的结果,在可比条件下优于 Rainbow。
- 该方法在 IMPALA 架构和像 V-trace 这样的离策略修正下仍然具备可扩展性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。