[论文解读] Contingency-Aware Exploration in Reinforcement Learning
本文提出了一种自监督方法——情境感知探索(CoEX),利用注意力动力学模型(ADM)学习雅达利游戏中的可控制元素,从而在稀疏奖励环境中实现更优的探索。通过利用动作预测推断智能体位置,并将其与计数基探索相结合,CoEX 在无需专家数据或监督的情况下,在《蒙特祖马的复仇》中取得了 11,618 分的新 SOTA 成绩。
This paper investigates whether learning contingency-awareness and controllable aspects of an environment can lead to better exploration in reinforcement learning. To investigate this question, we consider an instantiation of this hypothesis evaluated on the Arcade Learning Element (ALE). In this study, we develop an attentive dynamics model (ADM) that discovers controllable elements of the observations, which are often associated with the location of the character in Atari games. The ADM is trained in a self-supervised fashion to predict the actions taken by the agent. The learned contingency information is used as a part of the state representation for exploration purposes. We demonstrate that combining actor-critic algorithm with count-based exploration using our representation achieves impressive results on a set of notoriously challenging Atari games due to sparse rewards. For example, we report a state-of-the-art score of >11,000 points on Montezuma's Revenge without using expert demonstrations, explicit high-level information (e.g., RAM states), or supervisory data. Our experiments confirm that contingency-awareness is indeed an extremely powerful concept for tackling exploration problems in reinforcement learning and opens up interesting research questions for further investigations.
研究动机与目标
- 探究学习情境感知能力(即理解可控制的环境动力学)是否能提升强化学习中的探索性能。
- 开发一种自监督方法,无需监督或手工设计特征,即可发现可控制元素(如智能体位置)。
- 通过将学习到的情境感知表征作为状态表征的一部分,提升稀疏奖励环境中的探索性能。
- 在不依赖专家演示、RAM 状态或外部监督的前提下,实现在《蒙特祖马的复仇》等挑战性雅达利游戏中的优异性能。
- 探索情境感知能力是否可作为强化学习中通用、可解释且高效的探索抽象机制。
提出的方法
- 采用自监督方式训练注意力动力学模型(ADM),从连续观测中预测智能体的动作。
- ADM 使用空间注意力机制识别与智能体动作相关的观测区域,从而有效学习可控制元素的分割。
- 模型在强化学习训练过程中在线训练,仅使用原始观测和智能体策略动作,无需环境模拟器或标签。
- 将学习到的情境感知表征用作状态抽象,以计算伪计数,用于计数基探索。
- 通过在状态表征中引入 ADM 输出,将该方法与演员-评论家算法(特别是 PPO)集成,以引导探索。
- ADM 学习到紧凑且解耦的可控制动力学表征,实现高效且可解释的状态抽象。
实验结果
研究问题
- RQ1自监督学习可控制动力学是否能提升强化学习中的探索性能?
- RQ2情境感知能力(即理解环境中哪些部分受智能体控制)是否有助于解决稀疏奖励的雅达利游戏?
- RQ3基于注意力的动力学模型是否能在无监督或无先验知识的情况下学习到有意义的可控制区域?
- RQ4将学习到的情境信息整合到计数基探索中是否能提升样本效率和性能?
- RQ5该方法是否能在无需专家演示或高层状态信息的情况下,实现在《蒙特祖马的复仇》中的 SOTA 表现?
主要发现
- 所提出的 CoEX 方法在 5 亿次环境交互后,于《蒙特祖马的复仇》中取得了 11,618 分的新 SOTA 成绩,显著优于基线 PPO 和先前方法。
- 在《蒙特祖马的复仇》中,CoEX 在未使用专家演示、RAM 状态或监督数据的情况下,得分超过 11,000 分。
- 该方法在多款雅达利游戏中均表现出色,包括在《私家侦探》中获得 11,000 分,在《深海迷航》中获得 11,794 分,展现出广泛的适用性。
- 学习曲线显示稳定且快速的学习过程,PPO+CoEX 在 5 亿步内即达到高性能,而基线 PPO 则停滞在接近 0 或 1,797 分。
- 基于 ADM 的表征成功捕捉了智能体位置和可控制元素,即使在高度稀疏奖励的环境中也能实现有效探索。
- 尽管逆动力学模型的准确性存在不足,该方法仍保持有效性,表明其对情境估计的小误差具有鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。