[论文解读] EX2: Exploration with Exemplar Models for Deep Reinforcement Learning
EX2 引入示例判别器以估计隐式状态密度用于内在奖励,使在没有显式生成模型的情况下实现有效探索,在 vizDoom 上取得强劲结果,在 Atari 和连续控制任务上表现具竞争力。
Deep reinforcement learning algorithms have been shown to learn complex tasks using highly general policy classes. However, sparse reward problems remain a significant challenge. Exploration methods based on novelty detection have been particularly successful in such settings but typically require generative or predictive models of the observations, which can be difficult to train when the observations are very high-dimensional and complex, as in the case of raw images. We propose a novelty detection algorithm for exploration that is based entirely on discriminatively trained exemplar models, where classifiers are trained to discriminate each visited state against all others. Intuitively, novel states are easier to distinguish against other states seen during training. We show that this kind of discriminative modeling corresponds to implicit density estimation, and that it can be combined with count-based exploration to produce competitive results on a range of popular benchmark tasks, including state-of-the-art results on challenging egocentric observations in the vizDoom benchmark.
研究动机与目标
- 在不依赖生成观测模型的情况下解决深度 RL 的稀疏奖励探索问题。
- 开发判别式训练的示例模型,估计状态新颖性作为隐式密度。
- 采用编码器为基础的有条件判别器来实现跨大状态空间和高维观测的摊销训练。
- 将新颖性信号与基于计数的探索奖励结合。
- 在低维基准和如 vizDoom 及 Atari 的复杂图像域等方面证明有效性。
提出的方法
- 训练一个示例模型,包括区分器 D_x*,用于将每个访问过的状态 x* 与所有其他状态区分开来。
- 证明示例判别器通过 D_x*(x*) 和潜在空间噪声平滑,给出对 P_X(x) 的隐式密度估计。
- 用基于编码器的条件判别器进行训练摊销(摊销/示例条件网络)。
- 引入 K-Exemplar 和摊销架构以共享特征并减少每个状态分类器的数量。
- 将新颖性奖励融入 RL 的奖励 R'(s,a)=R(s,a)+β f(D_s(s)),其中 f(D_s(s)) 与估计密度相关。
- 将该方法与伪计数探索相关,并讨论与 KDE 与 GAN 的联系。
实验结果
研究问题
- RQ1示 discriminatively trained exemplar models 是否能够在没有显式生成模型的情况下估计状态新颖性?
- RQ2基于示例的隐式密度估计是否能为高维视觉任务的探索提供有效的内在奖励?
- RQ3摊销或 K-Exemplar 架构是否能将基于示例的探索扩展到大规模状态空间?
- RQ4相对于现有基于生成模型的探索方法,EX2 在 Atari 与 vizDoom 上的表现如何?
- RQ5潜在空间平滑对密度估计和探索奖励有何影响?
主要发现
- EX2 在若干任务上与以往的显式密度估计方法不相上下,且在 vizDoom DoomMyWayHome+ 上显著提升。
- 在 SwimmerGather 和 SparseHalfCheetah 上,EX2 与派生方法(VIME、哈希)显著优于 naive TRPO 和 KDE。
- 在 Atari 游戏中,EX2 的变体与先前的基于密度的方法相比具有竞争力;在 DoomMyWayHome+ 上,EX2 远超以往的探索技术。
- 通过示例模型进行的隐式密度估计在高维图像域中提供鲁棒的探索奖励,而显式生成模型往往难以实现。
- 摊销和 K-Exemplar 架构提供可扩展的、有效的密度估计,并在示例之间共享表示。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。