[论文解读] RIDE: Rewarding Impact-Driven Exploration for Procedurally-Generated Environments
RIDE 引入一种内部奖励,奖励在学习后的状态表示中造成有影响的变化的行动,从而在程序生成的稀疏奖励环境中改善探索。它在 MiniGrid 任务上优于先前的内部奖励,并能在不同迷宫中实现泛化。
Exploration in sparse reward environments remains one of the key challenges of model-free reinforcement learning. Instead of solely relying on extrinsic rewards provided by the environment, many state-of-the-art methods use intrinsic rewards to encourage exploration. However, we show that existing methods fall short in procedurally-generated environments where an agent is unlikely to visit a state more than once. We propose a novel type of intrinsic reward which encourages the agent to take actions that lead to significant changes in its learned state representation. We evaluate our method on multiple challenging procedurally-generated tasks in MiniGrid, as well as on tasks with high-dimensional observations used in prior work. Our experiments demonstrate that this approach is more sample efficient than existing exploration methods, particularly for procedurally-generated MiniGrid environments. Furthermore, we analyze the learned behavior as well as the intrinsic reward received by our agent. In contrast to previous approaches, our intrinsic reward does not diminish during the course of training and it rewards the agent substantially more for interacting with objects that it can control.
研究动机与目标
- 在外部奖励稀少的稀疏奖励、程序生成环境中激励探索。
- 开发一种瞄准有影响的状态变化而非单纯新颖性的内部奖励。
- 通过正向和逆向动力学学习状态表示,使奖励扎根于环境中可控的方面。
- 在多种 MiniGrid 任务和高维单例环境中,将 RIDE 与标准和内部探索基线进行比较评估。
提出的方法
- 使用正向和逆向动力学模型学习潜在状态表示 phi(s),如 Pathak 等人 (2017) 所述。
- 定义一个内部奖励 R_IDE = ||phi(s_{t+1}) - phi(s_t)||_2 除以 sqrt(N_ep(s_{t+1})),以奖励有影响的转变,同时抑制无意义的来回移动。
- 在 RL 目标 L_RL 的同时,用损失 L_fw 和 L_inv 训练前向和逆向模型,但不让 RL 更新影响表示网络。
- 同时使用情节性状态访问计数来折扣内部奖励(认知 grounding),并确保奖励仍聚焦于可控的环境变化。
- 在内部奖励之上进行策略学习,同时将嵌入网络与策略更新分离,避免对奖励的操控。
实验结果
研究问题
- RQ1基于在学习潜在空间中的影响的内部奖励,是否能在程序生成的稀疏奖励强化学习任务中改善探索?
- RQ2在 MiniGrid 与高维单例任务中,RIDE 与基于计数和基于好奇心的内部奖励在样本效率和任务可解性方面的对比?
- RQ3学习到的表示是否将奖励聚焦于与智能体能控制的对象交互的行动,且奖励信号在训练过程中是否保持持续?
- RQ4与先前的内部动机方法相比,RIDE 是否更能泛化到程序生成的环境?
主要发现
- RIDE 在具有挑战性的 MiniGrid 任务上优于基线探索方法(Count、RND、ICM)和标准强化学习(IMPALA),解决了其他方法无法解决的更难环境。
- RIDE 的内部奖励保持动态,在 100M 帧内也不衰减,与某些好奇心驱动或计数型奖励不同。
- RIDE 强调与可控对象(例如开启门)交互的行动多于一般移动,这一点在内部奖励分析中有所体现。
- 在程序生成的迷宫上训练比在单例迷宫上训练得到更广泛的探索,表明在不同环境实例之间有更好的泛化。
- 在单例 VizDoom 和 Mario 基准测试中,RIDE 的表现与基线方法相当甚至更好,而当与外部奖励结合时,基于好奇心的方法可能会阻碍学习。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。