[论文解读] QXplore: Q-Learning Exploration by Maximizing Temporal Difference Error
本文提出 QXplore,一种在深度强化学习中用于探索的方法,该方法利用外部 Q 网络的绝对时序差分(TD)误差作为次要内在奖励,以引导探索。通过在对抗性 Q 学习框架中结合外部奖励与基于 TD 误差的内在奖励,QXplore 在稀疏奖励环境中加速了收敛,同时在稀疏或零奖励设置下保持了新颖性探索行为,在连续控制基准测试中优于最先进方法。
A major challenge in reinforcement learning is exploration, especially when reward landscapes are sparse. Several recent methods provide an intrinsic motivation to explore by directly encouraging agents to seek novel states. A potential disadvantage of pure state novelty-seeking behavior is that unknown states are treated equally regardless of their potential for future reward. In this paper, we propose an exploration objective using the temporal difference error experienced on extrinsic rewards as a secondary reward signal for exploration in deep reinforcement learning. Our objective yields novelty-seeking in the absence of extrinsic reward, while accelerating exploration of reward-relevant states in sparse (but nonzero) reward landscapes. This objective draws inspiration from dopaminergic pathways in the brain that influence animal behavior. We implement the objective with an adversarial Q-learning method in which Q and Qx are the action-value functions for extrinsic and secondary rewards, respectively. Secondary reward is given by the absolute value of the TD-error of Q. Training is off-policy, based on a replay buffer containing a mix of trajectories sampled using Q and Qx. We characterize performance on a set of continuous control benchmark tasks, and demonstrate comparable or faster convergence on all tasks when compared with other state-of-the-art exploration methods.
研究动机与目标
- 为解决强化学习中高效探索的挑战,特别是在存在稀疏或延迟外部奖励的环境中。
- 克服现有新颖性探索方法的局限性,即对所有未知状态一视同仁,而不论其未来外部奖励的潜力。
- 开发一种方法,优先探索具有高未来外部回报潜力的状态,即使奖励稀疏。
- 将一种生物启发信号——TD 误差——整合到探索过程中,以引导智能体朝向与奖励相关联的状态。
提出的方法
- 该方法引入一个二级 Q 网络 Qx,用于学习从主 Q 网络中预测 TD 误差的绝对值,作为内在奖励信号。
- 内在奖励定义为 |δ| = |R + γ max_a' Q(s', a') - Q(s, a)|,其中 δ 是外部 Q 网络的 TD 误差。
- 采用对抗性训练方案,Q 和 Qx 共享一个经验回放缓冲区,该缓冲区包含使用 Q 和 Qx 收集的轨迹,两者同时进行训练。
- 智能体使用从 Q 和 Qx 衍生出的策略混合进行探索,其中 Qx 引导探索至预测误差较高的状态,表明存在未来奖励的潜力。
- 训练为离策略,利用存储了来自外部和内在探索策略轨迹的经验回放缓冲区。
- 该方法在使用深度 Q 网络的连续控制基准任务上进行了评估,并与最先进探索基线方法进行了性能比较。
实验结果
研究问题
- RQ1外部 Q 网络的 TD 误差能否作为有效内在奖励信号,以引导稀疏奖励环境中的探索?
- RQ2与最先进探索方法相比,使用 TD 误差作为二级奖励是否能提升连续控制任务中的收敛速度?
- RQ3所提出的方法在探索新颖状态与探索未来外部奖励潜力高的状态之间如何实现平衡?
- RQ4该方法在零奖励环境中在多大程度上保持了有效的探索,同时在稀疏奖励设置中加速了学习?
主要发现
- QXplore 在所有评估的连续控制基准任务中,收敛速度与最先进探索方法相当或更快。
- 该方法通过优先探索具有高 TD 误差的状态,有效加速了稀疏奖励环境中的学习,这些状态与高未来外部奖励潜力相关。
- 在零奖励场景中,QXplore 通过将 TD 误差作为不确定性和潜在价值的代理,维持了新颖性探索行为。
- 将 TD 误差作为内在信号整合后,实现了更高效的探索,减少了达到高性能所需的步数。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。