QUICK REVIEW

[论文解读] Deep Reinforcement Learning and the Deadly Triad

Hado van Hasselt, Yotam Doron|arXiv (Cornell University)|Dec 6, 2018

Reinforcement Learning in Robotics参考文献 27被引用 110

一句话总结

对深度Q学习中函数逼近、自举和离策略更新如何相互作用的实证研究，识别致命三元组在何时导致不稳定，以及在Atari游戏中如何缓解其影响。

ABSTRACT

We know from reinforcement learning theory that temporal difference learning can fail in certain cases. Sutton and Barto (2018) identify a deadly triad of function approximation, bootstrapping, and off-policy learning. When these three properties are combined, learning can diverge with the value estimates becoming unbounded. However, several algorithms successfully combine these three properties, which indicates that there is at least a partial gap in our understanding. In this work, we investigate the impact of the deadly triad in practice, in the context of a family of popular deep reinforcement learning models - deep Q-networks trained with experience replay - analysing how the components of this system play a role in the emergence of the deadly triad, and in the agent's performance

研究动机与目标

研究函数逼近、自举和离策略学习的组合如何影响深度强化学习中的学习稳定性。
量化在Atari游戏的DQN变体中出现不稳定性（软发散）的条件。
评估设计选择（自举目标、多步回报、网络规模、优先经验回放）对稳定性和性能的影响。

提出的方法

系统地在四种选项之间系统性地改变自举目标（Q-learning、目标Q-learning、逆双Q-learning、双Q-learning）。
测试不同的自举长度 n = 1、3、10 以调节自举。
通过使用四种网络规模（小型、中型、大型、特大型）来改变函数逼近容量。
通过变化的 α 和可选的重要性采样 β，利用优先级回放来改变离策略的强调。
在57个Atari游戏上进行评估，采用标准DQN预处理和每个配置20M帧，3次重复。
跟踪最大绝对Q值以诊断超出理论界限的软发散。

实验结果

研究问题

RQ1在实际情境中，使用致命三元组的深度强化学习系统在何种条件下会表现出不稳定性？
RQ2自举长度、网络容量和优先级经验回放如何影响DQN变体的发散性和性能？
RQ3目标网络和双Q学习是否相较于标准Q学习在深度RL中减少不稳定性？
RQ4增加多步回报是否能缓解发散并提升在Atari游戏中的控制性能？

主要发现

软发散（数值超出理论范围）会出现，但在深度强化学习中并非无界，表明三元组可能带来问题，但并非一定致命。
Q-learning 表现出最高的不稳定性，而目标Q学习和双Q学习最稳定；逆双Q学习则中等稳定。
更长的自举（n 越大）在各变体中降低不稳定性，其中 n=10 相较于 n=1 明显降低软发散。
更大的网络会增加Q-learning的不稳定性，但对双Q学习的影响不那么显著；总体上，较大网络仍可能提升性能。
更强的更新优先化会增加不稳定性，移除或减小重要性采样校正可以缓解发散。
实验显示软发散与控制性能下降之间存在相关性，性能较好的对应更少的不稳定运行。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。