QUICK REVIEW

[论文解读] Deep Recurrent Q-Learning for Partially Observable MDPs

Matthew Hausknecht, Peter Stone|arXiv (Cornell University)|Jul 23, 2015

Reinforcement Learning in Robotics参考文献 11被引用 686

一句话总结

本文提出深度循环Q网络（DRQN），通过将长短期记忆（LSTM）网络整合进深度Q网络（DQN），以处理部分可观察的马尔可夫决策过程（POMDP）。通过将单帧输入经由循环网络处理，DRQN能够捕捉时间依赖性，在全可观察的Atari游戏中性能与DQN相当，而在部分可观察场景（如闪烁屏幕）下显著优于DQN。

ABSTRACT

Deep Reinforcement Learning has yielded proficient controllers for complex tasks. However, these controllers have limited memory and rely on being able to perceive the complete game screen at each decision point. To address these shortcomings, this article investigates the effects of adding recurrency to a Deep Q-Network (DQN) by replacing the first post-convolutional fully-connected layer with a recurrent LSTM. The resulting extit{Deep Recurrent Q-Network} (DRQN), although capable of seeing only a single frame at each timestep, successfully integrates information through time and replicates DQN's performance on standard Atari games and partially observed equivalents featuring flickering game screens. Additionally, when trained with partial observations and evaluated with incrementally more complete observations, DRQN's performance scales as a function of observability. Conversely, when trained with full observations and evaluated with partial observations, DRQN's performance degrades less than DQN's. Thus, given the same length of history, recurrency is a viable alternative to stacking a history of frames in the DQN's input layer and while recurrency confers no systematic advantage when learning to play the game, the recurrent net can better adapt at evaluation time if the quality of observations changes.

研究动机与目标

为解决深度Q网络（DQN）在处理部分可观察的马尔可夫决策过程（POMDP）时的局限性，即状态信息不完整或存在噪声。
探究循环神经网络是否能提升在部分可观察环境（如闪烁游戏屏幕）中的性能。
评估在全观测下训练的循环策略，相较于非循环策略，在部分可观察性测试下是否具备更好的泛化能力。
确定DRQN是否能在可观测性提升时保持或提升性能，即使训练时仅使用不完整观测。

提出的方法

用长短期记忆（LSTM）层替代标准DQN中的首个全连接层，以实现对帧序列的时间处理。
通过LSTM处理单帧输入，维持一个编码历史信息的隐藏状态，使网络能够从部分观测中推断速度与运动信息。
采用与DQN相同的训练流程，包括经验回放和目标网络，但将其应用于循环架构，并使用时间反向传播。
通过时序差分学习端到端训练DRQN，以最小化损失函数 $ L(s,a| heta_i) = ig{(}r + eta ext{max}_{a'} Q(s',a'| heta_i) - Q(s,a| heta_i) ig{)}^2 $，并通过随机梯度下降进行梯度更新。
在标准Atari游戏及其闪烁变体上评估性能，其中每个时间步仅可见部分帧。
在多个指标上对比DRQN与标准DQN的表现：全可观察性下的性能、部分可观察性（闪烁）下的表现，以及可观测性提升时的可扩展性。

实验结果

研究问题

RQ1在DQN因记忆有限而失效的部分可观察环境中，类似LSTM的循环网络是否能提升性能？
RQ2在全可观察游戏中训练DRQN后，其在部分可观察性评估下是否比DQN具有更好的泛化能力？
RQ3当使用部分观测进行训练时，性能随可观测性提升如何变化？
RQ4在Atari游戏中处理时间依赖性时，循环结构相较于DQN中的帧堆叠是否存在系统性优势？

主要发现

DRQN在标准Atari游戏上的表现与DQN相当，表明循环结构在完全可观察的MDP中不会降低性能。
在Atari游戏的闪烁版本中，DRQN的性能下降更为平缓，且在所有闪烁水平下得分显著高于DQN。
当在部分观测下训练并在可观测性逐步提高时，DRQN的性能随可观测性单调提升，当所有帧均可见时接近完美得分。
当在全观测下训练并在部分可观察性下测试时，DRQN在所有闪烁水平下均保持了比DQN更高的原始性能比例。
在非闪烁的Atari游戏中，DRQN与DQN的性能差异极小，表明在完全可观察设置下无系统性优势。
Pong和Frostbite被识别为异常值游戏，DRQN在这些游戏中表现出显著提升，表明循环结构在需要从稀疏视觉线索中推断运动的任务中最具优势。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。