Skip to main content
QUICK REVIEW

[论文解读] A Geometric Perspective on Optimal Representations for Reinforcement Learning

Marc G. Bellemare, Will Dabney|arXiv (Cornell University)|Jan 31, 2019
Reinforcement Learning in Robotics参考文献 72被引用 26
一句话总结

本文通过将问题表述为最小化所有平稳策略的值函数中的近似误差,提出了一种用于强化学习中最优表示学习的几何框架。它识别出对抗性值函数(AVFs)——一种基于网络流优化得出的极值值函数——作为表示学习的关键子集,表明将AVFs作为辅助任务进行预测可获得更优、更具结构的表示,该结论在四房间网格世界环境中通过实证验证。

ABSTRACT

We propose a new perspective on representation learning in reinforcement learning based on geometric properties of the space of value functions. We leverage this perspective to provide formal evidence regarding the usefulness of value functions as auxiliary tasks. Our formulation considers adapting the representation to minimize the (linear) approximation of the value function of all stationary policies for a given environment. We show that this optimization reduces to making accurate predictions regarding a special class of value functions which we call adversarial value functions (AVFs). We demonstrate that using value functions as auxiliary tasks corresponds to an expected-error relaxation of our formulation, with AVFs a natural candidate, and identify a close relationship with proto-value functions (Mahadevan, 2005). We highlight characteristics of AVFs and their usefulness as auxiliary tasks in a series of experiments on the four-room domain.

研究动机与目标

  • 通过值函数空间的几何特性,形式化强化学习中的表示学习。
  • 识别出决定最优表示质量的最小关键值函数子集——对抗性值函数(AVFs)。
  • 通过最优表示形式的松弛化,证明将值函数预测作为辅助任务的合理性。
  • 通过实证验证,AVFs相较于随机或标准值函数,能生成更丰富、更具结构的表示。

提出的方法

  • 将最优表示学习形式化为在给定MDP中,对所有平稳策略的值函数集合最小化线性近似误差。
  • 推导出最坏情况下的近似误差对应于对抗性值函数(AVFs),AVFs是基于兴趣函数δ的网络流优化的解。
  • 表明将值函数预测作为辅助任务是最优表示问题的松弛形式,且AVFs是自然的目标。
  • 使用AVFs的主成分分析生成状态表示,并与原型值函数及随机策略进行比较。
  • 使用基于梯度的优化方法训练深度网络以预测AVFs,通过下游策略性能评估表示质量。
  • 应用伪逆缩放和迭代更新以稳定训练并降低方差。

实验结果

研究问题

  • RQ1决定最优表示质量的值函数空间具有何种几何结构?
  • RQ2哪一子集的值函数足以捕捉表示学习中的最坏情况近似误差?
  • RQ3与其它辅助任务相比,预测对抗性值函数在学习结构化表示方面表现如何?
  • RQ4AVFs能否作为强化学习中表示学习的合理且理论基础坚实的辅助任务?

主要发现

  • 对抗性值函数(AVFs)是决定表示学习中最坏情况近似误差的关键值函数子集。
  • AVFs基于兴趣函数δ的网络流优化推导得出,对应于在每个状态处极值化期望回报的确定性策略。
  • 通过对AVFs进行主成分分析所学习到的表示能够捕捉四房间环境中长距离结构,优于随机策略或原型值函数所生成的表示。
  • 训练深度网络以AVFs作为辅助任务进行预测,可实现更优的下游策略性能,具有更快的收敛速度和更低的方差。
  • AVF表示对样本大小具有鲁棒性,即使在小规模AVF集合(k=20至1000)下也能稳定形成结构。
  • AVFs为使用值预测作为辅助任务提供了理论依据,将其与最优表示问题的理论框架相联系。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。