QUICK REVIEW

[论文解读] Variance Reduction for Reinforcement Learning in Input-Driven Environments

Hongzi Mao, Shaileshh Bojja Venkatakrishnan|arXiv (Cornell University)|Jul 6, 2018

Reinforcement Learning in Robotics被引用 51

一句话总结

本文在输入驱动的 MDPs 中为策略梯度方法引入了依赖输入的基线，证明了无偏差的方差降低，并提出元学习方法在不同输入序列下学习基线。跨排队、网络以及 MuJoCo 任务的实验显示了训练稳定性和策略性能的提升。

ABSTRACT

We consider reinforcement learning in input-driven environments, where an exogenous, stochastic input process affects the dynamics of the system. Input processes arise in many applications, including queuing systems, robotics control with disturbances, and object tracking. Since the state dynamics and rewards depend on the input process, the state alone provides limited information for the expected future returns. Therefore, policy gradient methods with standard state-dependent baselines suffer high variance during training. We derive a bias-free, input-dependent baseline to reduce this variance, and analytically show its benefits over state-dependent baselines. We then propose a meta-learning approach to overcome the complexity of learning a baseline that depends on a long sequence of inputs. Our experimental results show that across environments from queuing systems, computer networks, and MuJoCo robotic locomotion, input-dependent baselines consistently improve training stability and result in better eventual policies.

研究动机与目标

在外部输入过程影响动力学和奖励的环境中推动强化学习。
证明状态相关基线在输入驱动的 MDPs 中对方差的降低效果差并提出输入相关基线。
推导输入相关基线的无偏性质和最优形式。
提出实用的学习方法（多值网络和元学习）以高效训练输入相关基线。
在多样化任务中展示改进的训练稳定性和策略性能。

提出的方法

定义带外部输入过程 z 的输入驱动 MDP，状态转移依赖于 (s, a, z)。
证明输入相关基线 b(omega, z) 不会对 A2C/TRPO/相关方法的策略梯度估计引入偏差。
推导最优的输入相关基线公式 b*(omega, z) 并给出一个实用的代理 b(omega, z) = E_{a ~ pi}[Q(omega, a, z)]。
引入两种高效的输入相关基线学习策略：（i）用于固定输入实现的多值网络，（ii）基于 MAML 的元学习方法以将元值网络适应到特定输入序列。
显示在训练中重复输入序列的输入重复性能够有效估计输入相关基线。
将基线应用于离散动作（负载均衡、比特率自适应）和连续动作（带扰动的 MuJoCo 运动控制）域。

实验结果

研究问题

RQ1在输入驱动的 MDPs 中，输入相关基线是否能够在不引入偏差的情况下降低策略梯度方法的方差？
RQ2输入相关基线的最优形式是什么，如何在实践中高效学习？
RQ3输入相关基线是否在多样化的输入驱动环境中改善训练稳定性和最终策略性能？
RQ4元学习或重复输入训练如何促进在大量输入序列上学习输入相关基线？

主要发现

输入相关基线在梯度方差方面稳定降低并优于状态相关基线的策略性能。
在独立输入过程下，输入相关基线对 A2C、TRPO 等策略梯度方法无偏。
最优输入相关基线是观测和未来输入序列的函数；实际地，可以学习一个条件值函数 V(omega, z)。
在模拟机器人运动中，带输入相关基线的 TRPO 相对于状态相关基线实现测试奖励高达 3×。
在离散动作任务（负载均衡和比特率自适应）中，输入相关基线降低方差并将测试奖励提高约 25–33%。
元基线（基于 MAML）通过在训练中利用大量输入过程，通常比单一基线表现更好。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。