Skip to main content
QUICK REVIEW

[论文解读] EMI: Exploration with Mutual Information

Hyoungseok Kim, Jaekyeom Kim|arXiv (Cornell University)|Oct 2, 2018
Music and Audio Processing被引用 33
一句话总结

EMI 提出了一种强化学习中新颖的探索方法,通过互信息估计来学习紧凑且具有预测性的状态和动作表征,而无需对高维观测进行生成解码。通过在嵌入空间中建模线性动态,EMI 在稀疏奖励的机器人运动和 Atari 游戏任务中取得了当前最优性能,优于 ICM、RND 和 EX2 等方法。

ABSTRACT

Reinforcement learning algorithms struggle when the reward signal is very sparse. In these cases, naive random exploration methods essentially rely on a random walk to stumble onto a rewarding state. Recent works utilize intrinsic motivation to guide the exploration via generative models, predictive forward models, or discriminative modeling of novelty. We propose EMI, which is an exploration method that constructs embedding representation of states and actions that does not rely on generative decoding of the full observation but extracts predictive signals that can be used to guide exploration based on forward prediction in the representation space. Our experiments show competitive results on challenging locomotion tasks with continuous control and on image-based exploration tasks with discrete actions on Atari. The source code is available at https://github.com/snu-mllab/EMI .

研究动机与目标

  • 为解决随机探索在稀疏奖励强化学习中难以发现有利状态的挑战。
  • 开发一种避免直接生成高维观测的方法,以降低计算负担。
  • 学习紧凑且具有预测性的状态和动作表征,以支持有效的前向预测与新颖性检测。
  • 在连续控制和基于图像的环境中实现鲁棒探索,尤其适用于稀疏奖励场景。
  • 提升在 Montezuma's Revenge 和 SparseHalfCheetah 等具有挑战性的强化学习基准任务中的样本效率与最终性能。

提出的方法

  • EMI 通过变分互信息散度估计学习状态和动作嵌入,避免对完整观测进行生成解码。
  • 该方法在给定当前状态和动作嵌入的前提下,强制最小化动作和下一状态表征的不确定性。
  • 在嵌入空间中施加线性动态模型,以捕捉可预测的转移,并将预测误差作为惊喜信号。
  • 模型在动作嵌入分布上引入正则化项,以稳定训练并提升表征质量。
  • 探索由前向预测误差与嵌入空间中的多样性共同引导,促进访问新状态。
  • 目标函数包含信息增益项与模型误差项,以平衡表征质量与预测准确性。

实验结果

研究问题

  • RQ1在紧凑表征空间中最大化互信息是否能够在不生成高维观测建模的前提下实现有效探索?
  • RQ2在嵌入空间中施加线性动态如何提升稀疏奖励环境中探索的性能?
  • RQ3对动作嵌入分布与状态嵌入分布分别进行正则化,对表征质量与学习稳定性有何影响?
  • RQ4EMI 在基于图像与连续控制任务中与当前最优内在动机方法(如 ICM、RND 和 EX2)相比表现如何?
  • RQ5所学习的嵌入空间能否在保持预测有效性的同时,有效支持离散与连续动作?

主要发现

  • 在 Montezuma's Revenge 任务中,EMI 的平均人类归一化得分达到 387,优于 EX2(0)、ICM(161)、RND(377)和 VIME(0),表明其在稀疏奖励环境中的探索能力显著优越。
  • 在 SparseHalfCheetah 任务中,EMI 在 100M 时间步时达到平均回报 218.1,显著优于 ICM(1.4)、RND(3.4)和 EX2(153.7)。
  • 消融实验表明,若移除信息增益项,嵌入空间会坍塌;而加入模型误差项则显著提升性能,凸显其对稳定性的关键作用。
  • 对动作嵌入分布进行正则化可提升表征质量,而对状态嵌入分布正则化则因状态访问非均匀性导致表征偏斜与退化。
  • 在 BoxImage 环境中,EMI 有效学习到一个 2D 嵌入空间,准确反映了智能体的位置与动作,展示了良好的解耦与空间感知能力。
  • EMI 在多样化任务中均表现出一致的性能提升,包括机器人运动与 Atari 游戏,证实其在连续与离散动作空间中的泛化能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。