[论文解读] A survey on intrinsic motivation in reinforcement learning
本综述对深度强化学习中的内在动机(IM)进行分类与评审,详细讨论知识获取、技能学习和状态表征,并探讨探索、赋能与课程设计方法。它比较使用预测误差、状态新颖性、信息增益和赋能的方法,并概述如何将IM与外在奖励和目标结合。
The reinforcement learning (RL) research area is very active, with an important number of new contributions; especially considering the emergent field of deep RL (DRL). However a number of scientific and technical challenges still need to be addressed, amongst which we can mention the ability to abstract actions or the difficulty to explore the environment which can be addressed by intrinsic motivation (IM). In this article, we provide a survey on the role of intrinsic motivation in DRL. We categorize the different kinds of intrinsic motivations and detail for each category, its advantages and limitations with respect to the mentioned challenges. Additionnally, we conduct an in-depth investigation of substantial current research questions, that are currently under study or not addressed at all in the considered research area of DRL. We choose to survey these research works, from the perspective of learning how to achieve tasks. We suggest then, that solving current challenges could lead to a larger developmental architecture which may tackle most of the tasks. We describe this developmental architecture on the basis of several building blocks composed of a RL algorithm and an IM module compressing information.
研究动机与目标
- 对强化学习中的IM进行分类,并提出聚焦于知识获取与技能学习的两种取向。
- 回顾如何将IM与外在奖励与目标空间结合以引导学习。
- 分析IM在改善状态表示、探索与赋能中的作用。
- 总结在以IM驱动的RL中替代性课程与目标生成方法。
提出的方法
- 给出对DRL中IM的分类并将其映射到第6节知识获取和第7节技能学习。
- 综述核心IM技术:预测错误、状态新颖性、信息增益和赋能。
- 讨论把r表示为 r = α r_int + β r_ext 或 V(s) = α V_int(s) + β V_ext(s) 的整合方法。
- 描述解决白噪声问题的探索机制,包括 ICM、EMI、伪计数/密度方法和 RND。
- 将赋能解释为互信息目标以及在实践中如何计算或对其进行界限。
- 概述IM如何影响状态表示学习以及技能的目标空间构建。
实验结果
研究问题
- RQ1如何在深度强化学习中对内在动机进行系统分类?
- RQ2主要的IM机制(预测错误、状态新颖性、信息增益、赋能)有哪些,它们在探索任务中的表现如何比较?
- RQ3如何利用IM来学习与迁移技能并在无监督情况下构建目标空间?
- RQ4何时以及如何将内在奖励与外在奖励结合,或用于塑造表征与课程?
- RQ5在应用IM时面临的实际挑战(计算、可扩展性、长期控制)有哪些,以及如何缓解?
主要发现
- 基于预测误差、基于状态新颖性以及基于信息增益的IM方法各自解决探索问题,但具有不同的计算成本和对环境的适用性。
- 内在好奇模块(ICM)及相关方法通过聚焦环境的可控方面来帮助避免白噪声问题。
- 随机网络蒸馏(RND)和密度/伪计数方法在稀疏奖励任务(如 Montezuma’s Revenge)中提升探索,但扩展性和泛化仍是关注点。
- 基于赋能的IM鼓励学习可控行为,能够稳定多智能体训练和终身技能多样化,尽管计算成本较高。
- 状态表示学习受益于IM,通过塑造交互分布,实现解耦表示和更有效的泛化。
- 使用内在奖励的技能学习能够发现与复用任务无关的技能(选项),并且从状态表示构建目标空间有助于分层RL和课程学习。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。