[论文解读] On Improving Deep Reinforcement Learning for POMDPs
ADRQN 引入通过 LSTM 处理的动作-观测对,以在部分可观察环境中改进深度强化学习,在闪烁/部分观测设置中优于 DRQN 和 DDRQN。
Deep Reinforcement Learning (RL) recently emerged as one of the most competitive approaches for learning in sequential decision making problems with fully observable environments, e.g., computer Go. However, very little work has been done in deep RL to handle partially observable environments. We propose a new architecture called Action-specific Deep Recurrent Q-Network (ADRQN) to enhance learning performance in partially observable domains. Actions are encoded by a fully connected layer and coupled with a convolutional observation to form an action-observation pair. The time series of action-observation pairs are then integrated by an LSTM layer that learns latent states based on which a fully connected layer computes Q-values as in conventional Deep Q-Networks (DQNs). We demonstrate the effectiveness of our new architecture in several partially observable domains, including flickering Atari games.
研究动机与目标
- 在状态未被完全观测的部分可观察环境中,激发稳健学习。
- 提出一种无模型架构,将动作并入历史以获得更好的信念估计。
- 利用 LSTM 将动作-观测序列整合以指导 Q 值估计。
- 在 Atari 2600 游戏的完全观测和部分观测条件下验证有效性。
- 与 DRQN 和 DDRQN 进行比较,以确立在 POMDP 设置中的性能提升。
提出的方法
- 使用一个全连接层对动作进行编码,得到 512 维动作表示。
- 通过将动作表示与 CNN 提取的观测特征耦合来形成动作-观测对。
- 使用 LSTM 处理动作-观测对序列以推断潜在状态表示。
- 通过最后的全连接层从 LSTM 输出计算 Q 值,类似于 DQN。
- 使用经验回放对来自回合的长度为 10 的序列进行训练,并进行目标网络更新。
- 在闪烁(部分观测) Atari 游戏和完全观测设定上进行评估,并与 DRQN 和 DDRQN 比较。
实验结果
研究问题
- RQ1在循环模型中显式加入动作信息是否能在部分可观测条件下改善学习?
- RQ2在 POMDP 设置下,ADRQN 是否优于现有的基于 DRQN 的方法,特别是在观测间歇性被遮蔽时?
- RQ3动作-观测耦合如何影响部分可观测领域中的训练稳定性和学习效率?
主要发现
| 模型 | Pong (testing) DRQN (± std) | Pong (testing) DDRQN (± std) | Pong (testing) ADRQN (± std) | Chp.Cmd. (testing) DRQN (± std) | Chp.Cmd. (testing) DDRQN (± std) | Chp.Cmd. (testing) ADRQN (± std) | Asteroids (testing) DRQN (± std) | Asteroids (testing) DDRQN (± std) | Asteroids (testing) ADRQN (± std) | Double dunk (testing) DRQN (± std) | Double dunk (testing) DDRQN (± std) | Double dunk (testing) ADRQN (± std) | Frostbite (testing) DRQN (± std) | Frostbite (testing) DDRQN (± std) | Frostbite (testing) ADRQN (± std) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Table 2 (standard setting) | 18.3(±2.0) | 18.6(±1.2) | 18.54(±2.3) | 1790(±744.3) | 1455(±596.0) | 1648(±658.1) | 983.8(±366.9) | 1096.6(±351.9) | 1025.4(±360.9) | -12.8(±3.8) | -13(±4.5) | -15.2(±3.4) | 2412(±394.5) | 2245.5(±585.8) | 2290.5(±571.7) |
| Table 3 (flickering, obs. prob. 0.5) | 1.6(±7.8) | 1.9(±8.4) | 7(±4.6) | 1090(±409.2) | 1040(±392.8) | 1608(±707.9) | 871.4(±339.8) | 1033(±396.1) | 1040.2(±431.5) | -14.4(±3.2) | -13(±2.5) | -13(±3.6) | 673.5(±503.0) | 393(±347.4) | 2002.5(±734.653) |
- 在完全可观测设定中,ADRQN 的表现与 DRQN 和 DDRQN 相当。
- 在部分可观测(闪烁)设置下,ADRQN 在多款 Atari 游戏中显著优于 DRQN 和 DDRQN。
- 在闪烁的 Frostbite 等任务中,ADRQN 在训练和测试阶段均显示出显著提升,表明更好的信念推断。
- 动作-观测耦合加速训练并提升对部分可观测性的鲁棒性。
- 泛化实验表明,当观测概率变化时,ADRQN 保持鲁棒性,优于 DRQN 和 DDRQN。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。