QUICK REVIEW

[论文解读] Recall Traces: Backtracking Models for Efficient Reinforcement Learning

Anirudh Goyal, Philémon Brakel|arXiv (Cornell University)|Apr 2, 2018

Reinforcement Learning in Robotics参考文献 48被引用 25

一句话总结

本文提出 Recall Traces 方法，通过使用一个经过训练的回溯模型生成通往高奖励状态的合成轨迹，从而提升强化学习中的样本效率。通过从导致高价值状态的过去（状态，动作）对的后验分布中采样，该方法在多种环境中加速了在线与离线策略算法的学习，实现了更少环境交互次数下的更快收敛与更高性能。

ABSTRACT

In many environments only a tiny subset of all states yield high reward. In these cases, few of the interactions with the environment provide a relevant learning signal. Hence, we may want to preferentially train on those high-reward states and the probable trajectories leading to them. To this end, we advocate for the use of a backtracking model that predicts the preceding states that terminate at a given high-reward state. We can train a model which, starting from a high value state (or one that is estimated to have high value), predicts and sample for which the (state, action)-tuples may have led to that high value state. These traces of (state, action) pairs, which we refer to as Recall Traces, sampled from this backtracking model starting from a high value state, are informative as they terminate in good states, and hence we can use these traces to improve a policy. We provide a variational interpretation for this idea and a practical algorithm in which the backtracking model samples from an approximate posterior distribution over trajectories which lead to large rewards. Our method improves the sample efficiency of both on- and off-policy RL algorithms across several environments and tasks.

研究动机与目标

提升强化学习中的样本效率，特别是在稀疏或弱奖励环境中，高奖励状态极为罕见的情况下。
通过利用无监督的转移数据，解决模型无监督强化学习方法需要大量环境交互的局限性。
开发一种方法，通过从高价值状态反向模拟路径，实现高效探索，以发现有用的轨迹。
将回溯机制无缝集成到现有的在线与离线策略强化学习算法（如 TRPO 和 SAC）中。
证明经训练的回溯模型生成的回忆轨迹在学习速度与最终性能上均优于随机或基线方法。

提出的方法

训练一个回溯模型，以在给定未来高价值状态时预测其前驱的（状态，动作）对，建模 $ p(s_t, a_t | s_{t+1}) $。
该模型在智能体交互产生的离线经验数据上进行训练，学习重建通往高奖励状态的合理轨迹。
通过从高价值状态开始，从回溯模型中采样生成 Recall Traces，产生以良好状态结束的合成轨迹。
采用变分推断的视角，将回溯模型解释为对导致高奖励的轨迹后验分布的近似。
将生成的回忆轨迹用于增强经验回放缓冲区或策略更新过程，适用于在线策略（如 TRPO）与离线策略（如 SAC）算法。
通过价值函数估计或通过目标生成模型生成高价值状态，实现回忆轨迹的自主生成。

实验结果

研究问题

RQ1能否通过一个能够重建通往高奖励状态的过去轨迹的回溯模型，提升强化学习中的样本效率？
RQ2与随机或基线经验回放相比，使用回忆轨迹在学习速度与最终性能方面表现如何？
RQ3该回溯模型能否有效与在线与离线策略强化学习算法结合，以加速学习？
RQ4轨迹长度与回溯模型的质量对学习性能有何影响？
RQ5该方法是否能在多种稀疏奖励环境中泛化，包括连续控制与导航任务？

主要发现

回溯模型显著提升了样本效率，使 U-Maze Ant 任务在 155 步内实现 63% 的状态空间覆盖率，而无回忆轨迹时需 275 步。
在机器人运动控制任务中，该方法在所有基准测试中均优于 TRPO，实现了更快的学习速度与更优的最终性能，涵盖 Half-Cheetah、Ant、Walker 和 Hopper。
与 SAC 结合时，该方法在所有任务中均提升了学习速度与最终性能，尤其在具有挑战性的 Ant 环境中提升最为显著。
消融实验表明，训练过的回溯模型优于随机模型，验证了学习反向动力学的重要性。
该方法对超参数选择与轨迹长度具有鲁棒性，在多个随机种子与环境中均观察到性能提升。
可视化结果表明，回忆轨迹能有效探索高奖励状态附近的区域，从而实现更快收敛与更广泛的状态空间覆盖。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。