[论文解读] Striving for Simplicity in Off-policy Deep Reinforcement Learning
本文提出随机集成混合(REM),一种简单的离策略深度强化学习算法,通过在多头Q网络的随机凸组合上强制执行贝尔曼一致性。仅使用离线DQN数据进行训练,REM在性能上优于批量QR-DQN和在线C51,表明性能提升主要源于改进的利用策略,而非分布式学习或复杂探索。
Reflecting on the advances of off-policy deep reinforcement learning (RL) algorithms since the development of DQN in 2013, it is important to ask: are the complexities of recent off-policy methods really necessary? In an attempt to isolate the contributions of various factors of variation in off-policy deep RL and to help design simpler algorithms, this paper investigates a set of related questions: First, can effective policies be learned given only access to logged offline experience? Second, how much of the benefits of recent distributional RL algorithms is attributed to improvements in exploration versus exploitation behavior? Third, can simpler off-policy RL algorithms outperform distributional RL without learning explicit distributions over returns? This paper uses a batch RL experimental setup on Atari 2600 games to investigate these questions. Unexpectedly, we find that batch RL algorithms trained solely on logged experiences of a DQN agent are able to significantly outperform online DQN. Our experiments suggest that the benefits of distributional RL mainly stem from better exploitation. We present a simple and novel variant of ensemble Q-learning called Random Ensemble Mixture (REM), which enforces optimal Bellman consistency on random convex combinations of the Q-heads of a multi-head Q-network. The batch REM agent trained offline on DQN data outperforms the batch QR-DQN and online C51 algorithms.
研究动机与目标
- 探究是否可仅从纯离线、记录的经验中学习到有效策略,而无需在线交互。
- 分离近期分布式强化学习算法(如C51和QR-DQN)中探索与利用的贡献。
- 确定更简单的离策略算法是否可在不显式建模回报分布的情况下超越分布式强化学习。
- 设计一种最小化但高效的离策略强化学习算法,仅使用离线数据即可实现强大性能。
- 挑战离策略算法复杂性在深度强化学习中实现高性能所必需的假设。
提出的方法
- 提出随机集成混合(REM),一种新型集成Q学习变体,通过在多头Q网络中对Q头的随机凸组合强制执行最优贝尔曼一致性。
- 采用批量强化学习设置,使用由DQN智能体收集的离线经验进行训练,无需在线交互。
- 对来自多个头的Q值随机凸组合应用单次贝尔曼更新,促进鲁棒的价值估计。
- 采用多头Q网络架构,其中每个头学习不同的Q值估计,REM以随机方式组合这些头。
- 通过最小化头的随机混合上的贝尔曼损失来优化集成,提升价值函数准确性,而无需显式分布式学习。
- 使用标准深度强化学习优化方法端到端训练整个网络,保持简单性与可扩展性。
实验结果
研究问题
- RQ1是否可仅使用来自DQN智能体的离线、记录经验学习到有效策略?
- RQ2分布式强化学习的优势在多大程度上源于更好的利用而非探索的改进?
- RQ3在不显式建模回报分布的情况下,更简单的离策略算法是否可超越C51和QR-DQN等分布式方法?
- RQ4在Q头的随机凸组合上强制执行贝尔曼一致性是否可带来优于标准分布式方法的性能?
- RQ5现代离策略算法的复杂性是否在批量强化学习设置中真正对高性能是必需的?
主要发现
- 仅使用离线DQN经验训练的批量强化学习智能体显著优于在线DQN,表明离线数据中已包含足够信息以实现强大策略学习。
- 分布式强化学习的性能提升主要源于更好的利用,而非探索改进,这通过REM在无显式分布式建模下仍取得成功得到验证。
- REM是一种基于Q头随机凸组合的简单算法,在相同离线数据上训练时,其在Atari 2600游戏上的表现优于批量QR-DQN和在线C51。
- REM的成功表明,在离策略深度强化学习中,显式建模回报分布并非实现高性能的必要条件。
- 在Q头的随机混合上强制执行贝尔曼一致性,可带来比标准分布式方法更准确的价值估计和更高的样本效率。
- 结果挑战了当前认为离策略深度强化学习中算法复杂性是高性能所必需的普遍假设,表明简单性可能已足够。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。