QUICK REVIEW

[论文解读] Regret Minimization for Partially Observable Deep Reinforcement Learning

Peter Jin, Kurt Keutzer|arXiv (Cornell University)|Oct 31, 2017

Reinforcement Learning in Robotics参考文献 44被引用 21

一句话总结

本文提出优势基准后悔最小化（ARM），一种基于反事实后悔最小化的深度强化学习算法，可在无需马尔可夫状态的前提下学习类似优势的函数。与在部分可观测环境下失效的基于价值的方法以及样本效率低下的策略梯度方法不同，ARM在部分可观测视觉任务（如Doom和Minecraft中的3D导航，以及存在遮挡或有限帧历史记录的Pong游戏）中实现了更优的样本效率和鲁棒性。

ABSTRACT

Deep reinforcement learning algorithms that estimate state and state-action value functions have been shown to be effective in a variety of challenging domains, including learning control strategies from raw image pixels. However, algorithms that estimate state and state-action value functions typically assume a fully observed state and must compensate for partial observations by using finite length observation histories or recurrent networks. In this work, we propose a new deep reinforcement learning algorithm based on counterfactual regret minimization that iteratively updates an approximation to an advantage-like function and is robust to partially observed state. We demonstrate that this new algorithm can substantially outperform strong baseline methods on several partially observed reinforcement learning tasks: learning first-person 3D navigation in Doom and Minecraft, and acting in the presence of partially observed objects in Doom and Pong.

研究动机与目标

为解决深度强化学习中部分可观测性带来的挑战，即观测非马尔可夫性，标准基于价值的方法会失效。
在非马尔可夫设置下，结合基于价值方法的样本效率与策略梯度方法的鲁棒性。
开发一种无需马尔可夫状态假设或循环神经网络的端到端模型无关算法。
提升在视觉部分可观测任务（如第一人称导航和存在遮挡的Atari游戏）中的性能。

提出的方法

该算法学习一个累积截断优势函数，以近似反事实后悔，从而在部分可观测环境下实现鲁棒学习。
采用受平均Q-learning启发的改进累积Q函数更新方式，以降低方差。
通过仅使用当前观测并基于后悔最小化原理，避免使用循环网络或固定长度观测历史。
应用类似于正时序差分方法的价值函数更新规则，但其理论基础为后悔最小化。
通过经验回放缓冲区使用离策略数据更新优势函数，从而提升样本效率。
使用深度神经网络端到端训练算法，将观测映射为优势估计值。

实验结果

研究问题

RQ1能否设计一种深度强化学习算法，在不假设马尔可夫状态的前提下，实现高样本效率并保持对部分可观测性的鲁棒性？
RQ2在非马尔可夫视觉环境中，后悔最小化相较于标准基于价值方法和策略梯度方法表现如何？
RQ3ARM在多样化部分可观测任务（包括3D导航和存在遮挡的Atari游戏）中具有多大程度的泛化能力？
RQ4在部分可观测性逐渐增强的情况下，ARM是否在样本效率和最终性能上均优于DQN和TRPO？

主要发现

在Doom Corridor+导航任务中，ARM显著优于DQN和TRPO，尤其在遮挡条件下，DQN性能急剧下降。
在存在遮挡或有限帧历史记录的Pong游戏中，ARM收敛速度更快、更稳定，而TRPO样本效率较低。
ARM在Pong和Corridor+任务的所有变体中均保持了强劲性能，展现出对部分可观测性的鲁棒性。
即使使用有偏的n步回报估计器（n=5），ARM对非马尔可夫观测的鲁棒性仍优于DQN，表明其具备内在鲁棒性。
在Doom和Minecraft中的第一人称3D导航任务中，ARM实现了更优的样本效率和最终性能，优于强基线模型。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。