[论文解读] Hindsight policy gradients
本文提出事后策略梯度(HPG),一种通过利用训练期间实际达成的目标信息(即使未达到预期目标)来提升强化学习样本效率的方法。通过重要性采样对轨迹进行重加权,基于替代目标重新评估,HPG在稀疏奖励环境中显著提升学习速度,优于标准策略梯度方法,并在FetchPush等复杂任务中达到或超越使用事后经验回放的DQN(DQN+HER)的性能。
A reinforcement learning agent that needs to pursue different goals across episodes requires a goal-conditional policy. In addition to their potential to generalize desirable behavior to unseen goals, such policies may also enable higher-level planning based on subgoals. In sparse-reward environments, the capacity to exploit information about the degree to which an arbitrary goal has been achieved while another goal was intended appears crucial to enable sample efficient learning. However, reinforcement learning agents have only recently been endowed with such capacity for hindsight. In this paper, we demonstrate how hindsight can be introduced to policy gradient methods, generalizing this idea to a broad class of successful algorithms. Our experiments on a diverse selection of sparse-reward environments show that hindsight leads to a remarkable increase in sample efficiency.
研究动机与目标
- 为解决在稀疏奖励设置下强化学习中样本效率低下的挑战,即智能体极少获得正向奖励。
- 将事后学习——即使未达成目标也从实际达成的目标中学习——的概念扩展至策略梯度方法,而这些方法此前并未具备此能力。
- 开发一种理论基础扎实、基于重要性采样的方法,高效重用经验以适应多个目标,且无需依赖经验回放缓冲区。
- 证明事后学习可被集成到一类广泛成功的策略梯度算法中,从而在多样且具有挑战性的环境中提升其性能。
提出的方法
- 提出一种事后策略梯度估计器,通过重要性采样基于替代目标对轨迹进行重加权,使智能体能够从非预期目标中学习。
- 推导出多种策略梯度的表述形式,推广了策略梯度强化学习中的经典结果,同时融入事后学习机制。
- 使用重要性采样校正因使用与原始意图不同的目标重新评估轨迹而引入的分布偏移。
- 在策略更新过程中直接应用该方法,无需依赖经验回放缓冲区,与事后经验回放方法形成对比。
- 采用以θ为参数的条件目标策略,其中动作同时依赖于状态和目标,并通过在事后重写目标的轨迹上计算梯度来更新θ。
- 引入一种计算优化:在高维环境(如Ms. Pac-Man、FetchPush)中对活跃目标进行子采样,以提升效率而不损失学习性能。
实验结果
研究问题
- RQ1事后学习能否被有效集成到传统上不利用实际达成目标信息的策略梯度方法中?
- RQ2重要性采样如何在策略梯度框架中实现高效且无偏的从事后轨迹中学习?
- RQ3与标准策略梯度方法及使用事后经验回放的DQN(DQN+HER)相比,事后策略梯度在稀疏奖励环境中的样本效率有何影响?
- RQ4HPG在哪些环境中优于或匹配最先进的方法(如DQN+HER),其性能受哪些因素影响?
主要发现
- 在k=8的位翻转环境中,HPG与DQN+HER达到相近的样本效率,而标准GCPG和DQN则未能学习。
- 在更复杂的k=16位翻转任务中,HPG略胜于DQN+HER,而GCPG和DQN仍无效果。
- 在空房间环境中,HPG是样本效率最高的方法,尽管DQN+HER在达到良好性能后表现出更强的稳定性。
- 在四间房环境中,DQN+HER显著优于HPG和GCPG,表明基于DQN的后事后方法在部分可观察、以导航为主的设置中可能更有效。
- 在Ms. Pac-Man中,DQN+HER再次优于所有其他方法,而HPG和GCPG表现出相当但次优的样本效率。
- 在FetchPush环境中,HPG显著优于所有基线方法,包括DQN+HER和DQN,后者完全无法学习,表明HPG在稀疏奖励的连续控制任务中具有明显优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。