[论文解读] Decoupling Exploration and Exploitation in Reinforcement Learning
该论文提出解耦强化学习(DeRL),一种通过为探索和利用分别训练策略来克服基于内在奖励的强化学习中不稳定性与超参数敏感性问题的方法。与基于内在动机的基线方法相比,DeRL在更少的环境交互次数下实现了相当或更优的性能,并且对内在奖励衰减率具有更强的鲁棒性。
Intrinsic rewards are commonly applied to improve exploration in reinforcement learning. However, these approaches suffer from instability caused by non-stationary reward shaping and strong dependency on hyperparameters. In this work, we propose Decoupled RL (DeRL) which trains separate policies for exploration and exploitation. DeRL can be applied with on-policy and off-policy RL algorithms. We evaluate DeRL algorithms in two sparse-reward environments with multiple types of intrinsic rewards. We show that DeRL is more robust to scaling and speed of decay of intrinsic rewards and converges to the same evaluation returns than intrinsically motivated baselines in fewer interactions.
研究动机与目标
- 解决由非平稳奖励设计引起的基于内在奖励的强化学习中的不稳定性问题。
- 减少内在奖励调度中对超参数的依赖。
- 通过解耦探索与利用策略来提高样本效率。
- 实现与在线策略和离线策略强化学习算法的兼容性。
- 评估方法在不同衰减率和内在奖励缩放因子下的鲁棒性。
提出的方法
- DeRL训练两个独立的策略:一个针对探索使用内在奖励进行优化,另一个针对利用使用外在奖励进行优化。
- 探索策略通过最大化内在好奇心或内在回报进行训练,而利用策略则专注于最大化外在回报。
- 两个策略独立训练,从而解耦优化目标并减少相互干扰。
- 该方法兼容在线策略和离线策略强化学习算法,如PPO和SAC。
- 内在奖励信号仅在探索策略训练期间使用,不用于利用策略的更新。
- 该方法允许对探索和利用组件进行独立的超参数调优。
实验结果
研究问题
- RQ1与基于内在动机的基线方法相比,DeRL在最终评估回报方面表现如何?
- RQ2DeRL对内在奖励衰减率和缩放因子的变化有多大的鲁棒性?
- RQ3解耦探索与利用是否能降低基于内在奖励的强化学习中的训练不稳定性?
- RQ4DeRL是否能以比内在奖励基线更少的环境交互次数实现相当的性能?
- RQ5DeRL在不同在线策略和离线策略强化学习算法上的泛化能力如何?
主要发现
- 在稀疏奖励环境中,DeRL实现了与内在动机基线相当或更优的评估回报。
- 与内在奖励基线相比,DeRL以显著更少的环境交互次数收敛到最优性能。
- DeRL在广泛的内在奖励衰减率和缩放因子范围内表现出稳健的性能。
- 解耦方法有效降低了由非平稳内在奖励引起的训练不稳定性。
- 无论内在奖励调度的超参数如何选择,DeRL均能保持优异性能。
- 该方法在应用于在线策略和离线策略强化学习算法时均表现出有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。