[论文解读] Eigenoption Discovery through the Deep Successor Representation
这篇论文将特征本征选项发现扩展到随机环境和表示学习,通过利用后继表示来学习原型值函数,从而从原始像素输入中产生特征本征选项并改善探索。
Options in reinforcement learning allow agents to hierarchically decompose a task into subtasks, having the potential to speed up learning and planning. However, autonomously learning effective sets of options is still a major challenge in the field. In this paper we focus on the recently introduced idea of using representation learning methods to guide the option discovery process. Specifically, we look at eigenoptions, options obtained from representations that encode diffusive information flow in the environment. We extend the existing algorithms for eigenoption discovery to settings with stochastic transitions and in which handcrafted features are not available. We propose an algorithm that discovers eigenoptions while learning non-linear state representations from raw pixels. It exploits recent successes in the deep reinforcement learning literature and the equivalence between proto-value functions and the successor representation. We use traditional tabular domains to provide intuition about our approach and Atari 2600 games to demonstrate its potential.
研究动机与目标
- 激励并解决在层级强化学习中自主发现有效选项(本征选项)的挑战。
- 引入一种学习随机环境中扩散信息流的表示学习方法。
- 利用原型值函数与后继表示之间的等价性来引导本征选项的发现。
- 开发一种神经网络架构,从原始像素输入学习后继表示,同时学习状态表示。
- 在表格域中直观演示该方法,并在Atari 2600游戏中展示原始像素的可行性。
提出的方法
- 通过从环境扩散信息流(DIF)表示导出的特征本征用途来定义本征选项。
- 使用后继表示(SR)来估计DIF模型,利用它与原型值函数(PVFs)的等价性。
- 在表格情形中,从样本学习SR,并从得到的矩阵中提取特征本征用途;用这些来定义本征选项的起始、策略和终止集合。
- 通过训练一个神经网络从原始像素输入估计SR,并增加一个重建辅助任务以及一个投影器以获得潜在特征,将其扩展到深度学习。
- 从SR输出计算特征本征用途(作为在随机策略下的SR观测构建的矩阵的右特征向量),并学习最大化相应内在奖励的选项。
- 通过一步贪婪前瞻以定性方式评估Atari游戏中的本征选项,以可视化有意义的、目标导向的行为。
实验结果
研究问题
- RQ1是否能够在随机环境中发现本征选项而不需要枚举状态或手工特征?
- RQ2从原始像素输入学习后继表示是否能产生有用的用于探索与控制的本征选项?
- RQ3基于SR的本征选项在引导智能体行为方面与基于PVF的本征选项有多接近?
- RQ4将SR为基础的选项发现流程整合进来是否相比单独的原始动作能在Atari游戏中改善探索与学习?
主要发现
- 基于SR的方法可以在随机设置中发现本征选项,而无需预定义的状态表征。
- 从SR观测推导的特征本征用途导致有意义、定向的行为,在表格房间和Atari实验中改善探索(扩散时间降低)。
- 在表格域中从SR学习的本征选项近似PVF基的特征向量,结合Q-learning时提升学习。
- 在Atari实验中,深度SR网络从原始像素学习潜在表示,产生有目的的本征选项,将智能体引导到屏幕上的特定位置。
- 本征选项展现出更密集的内在奖励和偏好探索,即使SR来自有限样本也如此。
- 即使SR估计不完美,该方法仍然有效,表明对表示学习质量具有鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。