QUICK REVIEW

[论文解读] Towards Characterizing Divergence in Deep Q-Learning

Joshua Achiam, Ethan Knight|arXiv (Cornell University)|Mar 21, 2019

Domain Adaptation and Few-Shot Learning参考文献 24被引用 61

一句话总结

本论文通过对更新进行泰勒展开分析深度Q学习中的发散，揭示函数近似、数据分布和自举的作用，并提出 PreQN 在没有常见技巧的情况下稳定学习。还将 PreQN 与自然梯度方法联系起来，并在 MuJoCo 基准测试中展示具有竞争力的性能。

ABSTRACT

Deep Q-Learning (DQL), a family of temporal difference algorithms for control, employs three techniques collectively known as the `deadly triad' in reinforcement learning: bootstrapping, off-policy learning, and function approximation. Prior work has demonstrated that together these can lead to divergence in Q-learning algorithms, but the conditions under which divergence occurs are not well-understood. In this note, we give a simple analysis based on a linear approximation to the Q-value updates, which we believe provides insight into divergence under the deadly triad. The central point in our analysis is to consider when the leading order approximation to the deep-Q update is or is not a contraction in the sup norm. Based on this analysis, we develop an algorithm which permits stable deep Q-learning for continuous control without any of the tricks conventionally used (such as target networks, adaptive gradient optimizers, or using multiple Q functions). We demonstrate that our algorithm performs above or near state-of-the-art on standard MuJoCo benchmarks from the OpenAI Gym.

研究动机与目标

在致命三元组（函数近似、离策略数据、自举）下，激励并刻画深度Q学习中的发散。
推导一个一阶近似更新算子，通过对任意范数上的收缩性质来理解稳定性。
识别神经切线核（NTK）和数据分布在稳定性与泛化中的作用。
提出并评估 Preconditioned Q-Networks (PreQN) 以在不使用目标网络或多个 Q 函数的情况下稳定 DQL。
将 PreQN 与自然梯度方法联系起来，以在某些条件下解释稳定性。

提出的方法

对 DQL 更新进行泰勒展开，以获得一个一阶近似算子，涉及神经切线核 K_theta 和回放数据分布 D_rho。
推导一个近似更新 U，将函数近似、数据分布和自举的贡献分离，以研究收缩性质。
通过一系列更新算子 U1、U2、U3 及在 ∞-范数下的收缩准则来建立直觉。
引入 PreQN，一种基于小批量的 TD-误差的预条件化，使用小批量 K_theta 的逆，并进行线搜索以确保更新与 TD-误差的对齐（余弦项）。
在共享样本估计下（带 Phi_theta 的矩阵形式），显示 PreQN 与自然梯度 Q 学习等价。
提供 PreQN 的伪代码（以 DDPG 风格）并讨论去除目标网络。

实验结果

研究问题

RQ1在何种条件下，一阶近似的 DQL 更新在 ∞-范数下是收缩的，以及致命三元组的各组成部分如何影响稳定性？
RQ2神经切线核（NTK）如何影响 DQL 的稳定性与泛化，架构选择是否能减轻发散？
RQ3预条件化更新（PreQN）是否能在没有目标网络或多个 Q 函数的情况下稳定 DQL，以及它与自然梯度方法之间的关系？
RQ4如现有方法那样对数据分布或 TD-误差的修改，是否足以解决发散问题，而非解决由 NTK 驱动的泛化问题？
RQ5与 TD3 和 SAC 相比，PreQN 在连续控制基准上的表现如何，以及激活函数（如 sin 与 relu）如何影响稳定性和性能？

主要发现

可以通过在 ∞-范数下的收缩视角来分析一阶 DQL 更新，突出 K_theta、D_rho 和 T^*Q_theta 的作用。
神经切线核（NTK）与泛化程度（K 的非对角元素）影响稳定性；更激进的泛化可能损害稳定性。
PreQN 通过为 K_theta 求解小批量最小二乘问题来对 TD-误差进行预条件化，并用线搜索更新 Q，以确保与 TD-误差对齐，达到近似非扩张的行为。
在相同的样本基估计下，PreQN 与自然梯度 Q 学习等价，解释在某些设置下无需目标网络也能观察到的稳定性。
实证 NTK 分析表明 sin 激活可以带来有利的对角优先的 NTK 结构，在若干 MuJoCo 任务中 PreQN-sin 的表现优于或等于基线。
PreQN 在标准 MuJoCo 基准测试中无需目标网络也显示出稳定和有竞争力的表现，尽管与 relu 网络偶发的发散表明架构和超参数考虑仍然重要。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。