QUICK REVIEW

[论文解读] Dueling Network Architectures for Deep Reinforcement Learning

Ziyu Wang, Tom Schaul|arXiv (Cornell University)|Nov 20, 2015

Reinforcement Learning in Robotics参考文献 23被引用 1,813

一句话总结

本文提出了一种用于深度强化学习的dueling网络架构，将状态值函数 $V(s)$ 与动作优势函数 $A(s,a)$ 分离为独立的分支，共享一个共同的特征编码器。通过将这两个分支组合生成 $Q(s,a) = V(s) + \left(A(s,a) - \frac{1}{|\mathcal{A}|}\sum_{a'} A(s,a')\right)$，该架构实现了更高效且稳定的训练，尤其在具有大量相似动作值的环境中表现更优。当结合优先经验回放时，该方法在Atari 2600基准测试中达到了最先进性能。

ABSTRACT

In recent years there have been many successes of using deep representations in reinforcement learning. Still, many of these applications use conventional architectures, such as convolutional networks, LSTMs, or auto-encoders. In this paper, we present a new neural network architecture for model-free reinforcement learning. Our dueling network represents two separate estimators: one for the state value function and one for the state-dependent action advantage function. The main benefit of this factoring is to generalize learning across actions without imposing any change to the underlying reinforcement learning algorithm. Our results show that this architecture leads to better policy evaluation in the presence of many similar-valued actions. Moreover, the dueling architecture enables our RL agent to outperform the state-of-the-art on the Atari 2600 domain.

研究动机与目标

通过解耦状态值与动作优势函数的估计，提升深度强化学习中的策略评估性能。
在具有大量相似或冗余动作的状态中，实现更高效的跨动作学习。
设计一种神经网络架构，使其在不修改底层强化学习算法的前提下，实现对动作的良好泛化能力。
在Atari 2600强化学习基准测试中，相比现有单分支Q网络，实现更优的性能表现。

提出的方法

Dueling架构采用两条并行分支：一条用于估计状态值函数 $V(s)$，另一条用于估计状态-动作优势函数 $A(s,a)$。
两条分支共享一个共同的卷积特征提取模块，以从原始观测中学习共享表征。
最终的 $Q$-值通过公式 $Q(s,a) = V(s) + \left(A(s,a) - \frac{1}{|\mathcal{A}|}\sum_{a'} A(s,a')\right)$ 计算，确保优势值相对于平均动作优势进行归一化。
网络使用标准的深度Q学习方法进行训练，结合经验回放与目标网络，无需对学习算法进行任何修改。
通过计算价值分支与优势分支对输入帧的雅可比矩阵，生成显著性图以可视化注意力机制。
将该架构与优先经验回放及梯度裁剪结合，进一步提升样本效率与训练稳定性。

实验结果

研究问题

RQ1在深度Q网络中解耦价值函数与优势函数，是否能带来更稳定且高效的策略评估？
RQ2Dueling架构是否能在具有大量动作的环境中提升学习性能，特别是在动作值相近的情况下？
RQ3Dueling架构是否能在不修改底层强化学习算法的前提下，实现对动作的良好泛化？
RQ4在Atari 2600基准测试中，Dueling架构相较于标准单分支Q网络，在样本效率与最终性能方面表现如何？

主要发现

Dueling架构在具有大量相似动作值的环境中显著提升了策略评估性能，有效减少了因微小值差异引发的不稳定性。
当结合优先经验回放时，该方法在57款Atari 2600游戏基准测试中实现了平均人类性能得分591%与中位数172%。
显著性图显示，价值分支关注长期状态相关的特征（如道路远端与得分），而优势分支仅在动作具有即时影响时被激活（如在Enduro游戏中靠近的车辆）。
Dueling网络在性能上超越了单分支DQN基线与优先经验回放DQN基线，在Atari 2600领域确立了新的最先进水平。
该架构频繁更新价值分支，使得 $V(s)$ 的近似更优，从而增强了时序差分学习的稳定性。
结合Dueling网络、优先经验回放与梯度裁剪可带来显著的性能提升，且该方法对动作Q值中噪声或微小差异表现出强鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。