[论文解读] Towards Characterizing Divergence in Deep Q-Learning
本论文通过对更新进行泰勒展开分析深度Q学习中的发散,揭示函数近似、数据分布和自举的作用,并提出 PreQN 在没有常见技巧的情况下稳定学习。还将 PreQN 与自然梯度方法联系起来,并在 MuJoCo 基准测试中展示具有竞争力的性能。
Deep Q-Learning (DQL), a family of temporal difference algorithms for control, employs three techniques collectively known as the `deadly triad' in reinforcement learning: bootstrapping, off-policy learning, and function approximation. Prior work has demonstrated that together these can lead to divergence in Q-learning algorithms, but the conditions under which divergence occurs are not well-understood. In this note, we give a simple analysis based on a linear approximation to the Q-value updates, which we believe provides insight into divergence under the deadly triad. The central point in our analysis is to consider when the leading order approximation to the deep-Q update is or is not a contraction in the sup norm. Based on this analysis, we develop an algorithm which permits stable deep Q-learning for continuous control without any of the tricks conventionally used (such as target networks, adaptive gradient optimizers, or using multiple Q functions). We demonstrate that our algorithm performs above or near state-of-the-art on standard MuJoCo benchmarks from the OpenAI Gym.
研究动机与目标
- 在致命三元组(函数近似、离策略数据、自举)下,激励并刻画深度Q学习中的发散。
- 推导一个一阶近似更新算子,通过对任意范数上的收缩性质来理解稳定性。
- 识别神经切线核(NTK)和数据分布在稳定性与泛化中的作用。
- 提出并评估 Preconditioned Q-Networks (PreQN) 以在不使用目标网络或多个 Q 函数的情况下稳定 DQL。
- 将 PreQN 与自然梯度方法联系起来,以在某些条件下解释稳定性。
提出的方法
- 对 DQL 更新进行泰勒展开,以获得一个一阶近似算子,涉及神经切线核 K_theta 和回放数据分布 D_rho。
- 推导一个近似更新 U,将函数近似、数据分布和自举的贡献分离,以研究收缩性质。
- 通过一系列更新算子 U1、U2、U3 及在 ∞-范数下的收缩准则来建立直觉。
- 引入 PreQN,一种基于小批量的 TD-误差的预条件化,使用小批量 K_theta 的逆,并进行线搜索以确保更新与 TD-误差的对齐(余弦项)。
- 在共享样本估计下(带 Phi_theta 的矩阵形式),显示 PreQN 与自然梯度 Q 学习等价。
- 提供 PreQN 的伪代码(以 DDPG 风格)并讨论去除目标网络。
实验结果
研究问题
- RQ1在何种条件下,一阶近似的 DQL 更新在 ∞-范数下是收缩的,以及致命三元组的各组成部分如何影响稳定性?
- RQ2神经切线核(NTK)如何影响 DQL 的稳定性与泛化,架构选择是否能减轻发散?
- RQ3预条件化更新(PreQN)是否能在没有目标网络或多个 Q 函数的情况下稳定 DQL,以及它与自然梯度方法之间的关系?
- RQ4如现有方法那样对数据分布或 TD-误差的修改,是否足以解决发散问题,而非解决由 NTK 驱动的泛化问题?
- RQ5与 TD3 和 SAC 相比,PreQN 在连续控制基准上的表现如何,以及激活函数(如 sin 与 relu)如何影响稳定性和性能?
主要发现
- 可以通过在 ∞-范数下的收缩视角来分析一阶 DQL 更新,突出 K_theta、D_rho 和 T^*Q_theta 的作用。
- 神经切线核(NTK)与泛化程度(K 的非对角元素)影响稳定性;更激进的泛化可能损害稳定性。
- PreQN 通过为 K_theta 求解小批量最小二乘问题来对 TD-误差进行预条件化,并用线搜索更新 Q,以确保与 TD-误差对齐,达到近似非扩张的行为。
- 在相同的样本基估计下,PreQN 与自然梯度 Q 学习等价,解释在某些设置下无需目标网络也能观察到的稳定性。
- 实证 NTK 分析表明 sin 激活可以带来有利的对角优先的 NTK 结构,在若干 MuJoCo 任务中 PreQN-sin 的表现优于或等于基线。
- PreQN 在标准 MuJoCo 基准测试中无需目标网络也显示出稳定和有竞争力的表现,尽管与 relu 网络偶发的发散表明架构和超参数考虑仍然重要。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。