[论文解读] Universal Successor Representations for Transfer Reinforcement Learning
本文提出了通用后继表示(USR)及可训练的 USR 近似器(USRA),以在强化学习中实现高效迁移学习,其中任务具有相同的动力学但目标不同。通过学习状态转移与目标的共享表示,USRA 可通过有效初始化实现对新目标的快速适应,在训练速度上显著优于随机初始化。
The objective of transfer reinforcement learning is to generalize from a set of previous tasks to unseen new tasks. In this work, we focus on the transfer scenario where the dynamics among tasks are the same, but their goals differ. Although general value function (Sutton et al., 2011) has been shown to be useful for knowledge transfer, learning a universal value function can be challenging in practice. To attack this, we propose (1) to use universal successor representations (USR) to represent the transferable knowledge and (2) a USR approximator (USRA) that can be trained by interacting with the environment. Our experiments show that USR can be effectively applied to new tasks, and the agent initialized by the trained USRA can achieve the goal considerably faster than random initialization.
研究动机与目标
- 解决在具有共享动力学但目标不同的强化学习任务之间迁移知识的挑战。
- 改进通用价值函数近似器,后者在实践中难以有效训练。
- 开发一种可泛化于状态和目标的通用后继表示(USR),以实现多任务迁移。
- 设计一种可训练的 USR 近似器(USRA),可通过与环境的在线策略演员-评论家交互进行学习。
- 证明 USRA 可通过有效初始化实现对未见目标的更快学习。
提出的方法
- 将奖励函数分解为 $ r_g(s,a,s') = \mathbf{\phi}(s,a,s')^\top \mathbf{w}_g $,其中 $ \mathbf{\phi} $ 为共享状态特征,$ \mathbf{w}_g $ 为目标特定的奖励特征。
- 将通用后继表示(USR)定义为 $ \mathbf{\psi}_g^\pi(s) = \mathbb{E}^\pi[\mathbf{\phi}(s,A,S') + \gamma_g(s)\mathbf{\psi}_g^\pi(S')] $,该表示可泛化于状态和目标。
- 使用演员-评论家框架通过梯度更新训练 USRA,损失函数包含四个分量:$ L_w $、$ L_\psi $、$ J_\pi $ 和 $ L_{\text{recon}} $,用于状态特征学习。
- 采用深度神经网络架构,其中 $ \theta_\pi $、$ \theta_\psi $、$ \theta_w $ 和 $ \theta_\phi $ 共同优化,早期层共享以进行特征提取。
- 在端到端训练前,通过在原始观测上进行自编码器预训练学习状态特征 $ \mathbf{\phi}(s) $。
- 将训练好的 USRA 用作策略和价值函数的初始化,以加速在新未见目标上的学习。
实验结果
研究问题
- RQ1通用后继表示(USR)是否能有效泛化于具有共享动力学的任务中的不同目标?
- RQ2通过与环境的在线策略交互,USR 近似器(USRA)是否能成功训练?
- RQ3使用预训练的 USRA 初始化是否能实现比随机初始化更快地收敛于新未见目标?
- RQ4需要多少个源目标才能使 USRA 实现强泛化能力和快速迁移性能?
- RQ5在多任务强化学习设置中,基于 USRA 的初始化是否优于标准价值函数迁移方法?
主要发现
- USRA 模型在目标之间表现出有效泛化,对未见目标的性能接近于直接在这些目标上训练的模型。
- 当在 64 个目标中的 20 个上进行训练时,USRA 的泛化性能已接近在 40 个目标上训练的模型,表明其具有较低的样本复杂度。
- 使用训练好的 USRA 初始化的智能体在新目标上的学习速度优于随机初始化,尤其在源目标数量足够多时(如 k=20)效果更明显。
- 预测的 USR 值与最优 USR 值之间的均方误差(MSE)较低,且在未见目标上的策略泛化任务中交叉熵损失也较低。
- 当源目标数量足够多以捕捉任务动力学时,USRA 初始化带来的性能增益最为显著,超过某一临界点后增益趋于饱和。
- 演员-评论家训练过程成功地在统一框架中优化了 USRA 的所有组件,包括 $ \theta_\psi $、$ \theta_\pi $、$ \theta_w $ 和 $ \theta_\phi $。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。