[论文解读] Deep Successor Reinforcement Learning
本文提出深度后继强化学习(DSR),一种将价值函数分解为后继表示(SR)与奖励预测的深度强化学习框架,可实现对远距离奖励变化的快速适应,并从随机策略轨迹中发现子目标。DSR在原始像素观测上实现端到端训练,在网格世界与3D导航环境中展现出对奖励变化更高的敏感性及有效的子目标提取能力。
Learning robust value functions given raw observations and rewards is now possible with model-free and model-based deep reinforcement learning algorithms. There is a third alternative, called Successor Representations (SR), which decomposes the value function into two components -- a reward predictor and a successor map. The successor map represents the expected future state occupancy from any given state and the reward predictor maps states to scalar rewards. The value function of a state can be computed as the inner product between the successor map and the reward weights. In this paper, we present DSR, which generalizes SR within an end-to-end deep reinforcement learning framework. DSR has several appealing properties including: increased sensitivity to distal reward changes due to factorization of reward and world dynamics, and the ability to extract bottleneck states (subgoals) given successor maps trained under a random policy. We show the efficacy of our approach on two diverse environments given raw pixel observations -- simple grid-world domains (MazeBase) and the Doom game engine.
研究动机与目标
- 解决在稀疏或延迟奖励设置下,从原始观测中学习鲁棒价值函数的挑战。
- 实现价值函数对远距离奖励变化的快速适应,克服标准无模型强化学习的局限性。
- 从随机策略下学习的后继表示中提取有意义的子目标(瓶颈状态),以支持层次化强化学习。
- 开发一种端到端的深度学习框架,联合从原始感官输入学习后继表示与奖励函数。
提出的方法
- DSR使用带有共享特征编码器(CNN)的深度神经网络,将原始图像转换为状态特征。
- 其采用独立的后继网络(u_α)预测每个动作在当前状态条件下的未来状态占据情况(SR)。
- 通过深度卷积解码器从特征中重建输入状态,支持自监督预训练。
- 使用线性回归器预测每个状态的即时奖励,通过SR与奖励权重的内积实现价值估计:Q(s,a) ≈ m_sa · w。
- 模型通过经验回放与随机梯度下降进行训练,通过交错更新SR与奖励组件以确保稳定性。
- 通过在随机策略下收集的SR表示进行归一化割(normalized cuts)实现子目标提取,识别环境中结构化的瓶颈。
实验结果
研究问题
- RQ1与标准无模型强化学习相比,后继表示是否能实现对远距离奖励变化的更快适应?
- RQ2DSR能否在复杂环境中直接从原始像素观测中学习到有用的后继表示与奖励函数?
- RQ3能否从随机策略下学习的后继表示中可靠地提取子目标?
- RQ4将价值函数分解为SR与奖励是否能提升稀疏奖励设置下的样本效率与价值函数敏感性?
主要发现
- DSR在远距离奖励变化后表现出快速收敛至新价值函数的能力,仅需重加权线性奖励头,而保持SR固定。
- 在网格世界环境中,DSR在数千步内即适应了目标奖励从1.0提升至3.0,展现出对奖励变化的高敏感性。
- 通过在SR表示上应用归一化割进行子目标提取,成功识别出有意义的瓶颈状态,如Doom环境中的房间入口。
- 该方法生成的环境分区与潜在结构一致,如MazeBase与VizDoom环境中的可视化结果所示。
- 通过交错优化SR与奖励组件,DSR框架在训练中保持了稳定性,避免了端到端训练中的常见不稳定性问题。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。