QUICK REVIEW

[论文解读] Learning to Reach Goals via Iterated Supervised Learning

Dibya Ghosh|arXiv (Cornell University)|Dec 12, 2019

Reinforcement Learning in Robotics参考文献 49被引用 29

一句话总结

该论文提出了一种名为目标条件监督学习（Goal-conditioned Supervised Learning, GCSL）的简单且稳定的强化学习算法，该算法使智能体能够仅通过自身轨迹的回放，无需专家演示或价值函数估计，从零开始学习目标达成行为。通过迭代地将轨迹重新标注，将最终状态视为目标，并在这些重新标注的轨迹上通过监督学习微调策略，GCSL可证明地优化强化学习目标的下界，在基准任务中表现优于基于价值函数和策略梯度的方法，且对超参数更具鲁棒性。

ABSTRACT

Current reinforcement learning (RL) algorithms can be brittle and difficult to use, especially when learning goal-reaching behaviors from sparse rewards. Although supervised imitation learning provides a simple and stable alternative, it requires access to demonstrations from a human supervisor. In this paper, we study RL algorithms that use imitation learning to acquire goal reaching policies from scratch, without the need for expert demonstrations or a value function. In lieu of demonstrations, we leverage the property that any trajectory is a successful demonstration for reaching the final state in that same trajectory. We propose a simple algorithm in which an agent continually relabels and imitates the trajectories it generates to progressively learn goal-reaching behaviors from scratch. Each iteration, the agent collects new trajectories using the latest policy, and maximizes the likelihood of the actions along these trajectories under the goal that was actually reached, so as to improve the policy. We formally show that this iterated supervised learning procedure optimizes a bound on the RL objective, derive performance bounds of the learned policy, and empirically demonstrate improved goal-reaching performance and robustness over current RL algorithms in several benchmark tasks.

研究动机与目标

开发一种稳定、数据高效的强化学习算法，用于目标达成任务，避免基于价值函数和策略梯度方法的脆弱性。
在目标条件强化学习中消除对稀疏奖励、专家演示或价值函数估计的依赖。
使智能体能够通过其自身次优轨迹的迭代自我模仿，从零开始学习最优目标达成行为。
正式证明迭代重标注与模仿过程可优化强化学习目标的下界。
通过实证结果展示其在性能和鲁棒性方面优于当前最先进的基于价值函数和策略梯度的方法。

提出的方法

在每次迭代中，智能体使用当前策略收集轨迹，命令其前往各种目标状态。
每条轨迹均被重新标注，使轨迹中的最终状态成为目标，从而将次优行为转化为该最终状态的成功示范。
智能体随后通过最大化实际达到目标下动作在这些重新标注轨迹中的似然性，执行目标条件监督学习。
更新后的策略用于下一轮迭代，该过程重复进行，逐步提升性能。
该方法通过在不重新加权的情况下对所有历史轨迹进行训练，实现离策略数据的重用，最大化数据效率。
该算法兼容专家演示，可将专家演示加入数据集中以加速学习。

实验结果

研究问题

RQ1智能体能否仅通过自身轨迹和监督学习，从零开始学习最优目标达成行为？
RQ2通过将轨迹迭代重标注为将最终状态视为目标，是否能实现可证明的策略优化改进？
RQ3该自我模仿方法在性能和鲁棒性方面与基于价值函数和策略梯度的强化学习方法相比如何？
RQ4当存在专家演示时，该方法能否有效利用？在该场景下是否优于现有方法？
RQ5与传统深度强化学习算法相比，该算法是否对超参数的敏感性更低？

主要发现

在多个基准环境上，GCSL在目标达成性能方面优于TD3-HER及其他基于价值函数和策略梯度的方法。
与TD3-HER相比，GCSL在不同超参数配置下的最终性能分布更加集中，表明其对超参数的敏感性显著更低。
在使用专家演示初始化时，GCSL比TD3-HER实现更快且更显著的性能提升，而后者在预训练阶段因误差累积和不稳定性而表现受限。
GCSL能够有效利用离策略数据，而无需价值函数估计或复杂的重加权方案。
该算法可证明地优化目标达成强化学习目标的下界，为其迭代自我模仿过程提供了理论依据。
即使在策略随时间变化的情况下，该方法仍能实现类似最短路径的定向行为，表明其学习策略具有内在的一致性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。