[论文解读] Automated curricula through setter-solver interactions
论文提出了一个 setter-solver 框架,用于在具有动态、稀疏奖励环境的目标条件强化学习中自动生成课程,强调目标的有效性、可行性和覆盖性是关键目标,并演示对环境观测进行条件化以及定位期望的目标分布。
Reinforcement learning algorithms use correlations between policies and rewards to improve agent performance. But in dynamic or sparsely rewarding environments these correlations are often too small, or rewarding events are too infrequent to make learning feasible. Human education instead relies on curricula--the breakdown of tasks into simpler, static challenges with dense rewards--to build up to complex behaviors. While curricula are also useful for artificial agents, hand-crafting them is time consuming. This has lead researchers to explore automatic curriculum generation. Here we explore automatic curriculum generation in rich, dynamic environments. Using a setter-solver paradigm we show the importance of considering goal validity, goal feasibility, and goal coverage to construct useful curricula. We demonstrate the success of our approach in rich but sparsely rewarding 2D and 3D environments, where an agent is tasked to achieve a single goal selected from a set of possible goals that varies between episodes, and identify challenges for future work. Finally, we demonstrate the value of a novel technique that guides agents towards a desired goal distribution. Altogether, these results represent a substantial step towards applying automatic task curricula to learn complex, otherwise unlearnable goals, and to our knowledge are the first to demonstrate automated curriculum generation for goal-conditioned agents in environments where the possible goals vary between episodes.
研究动机与目标
- 在复杂、动态和稀疏奖励任务中激发对自动化课程的需求。
- 提出一个 setter-solver 框架,为求解代理生成目标课程。
- 定义并优化三个 setter 目标:目标有效性、目标可行性和目标覆盖率。
- 探索对环境观测进行条件化以处理不同环境。
- 在可用时,研究定位已知期望的任务分布。
提出的方法
- 引入一个三组件模型:求解器(目标条件化的 RL 代理)、设定者(目标生成模型)、评审者(可行性预测器)。
- 使用分布式策略梯度学习(V-trace 与熵正则化)训练设定者所生成的目标来训练求解器。
- 将目标有效性定义为存在能够实现该目标的求解器策略;将可行性定义为求解器当前实现该目标的概率;将覆盖率定义为生成目标的多样性。
- 设定者损失包括:(i) 有效性损失以偏向可实现的目标,(ii) 可行性损失以使目标与评审者预测对齐,(iii) 覆盖损失以最大化目标的多样性。
- 可选扩展包括通过 Wasserstein 判别器定位已知的期望目标分布以及对环境观测条件化设定者/评审者以处理不同环境。
实验结果
研究问题
- RQ1自动课程在动态、稀疏奖励环境中的目标条件强化学习中能否提升学习效果?
- RQ2目标有效性、可行性和覆盖性是否共同实现复杂任务中的有效课程?
- RQ3对环境观测进行条件化对目标在每次情节中变化的环境是否有帮助?
- RQ4定位一个已知的期望目标分布是否能加速掌握特定任务?
- RQ5与现有方法如 Goal GAN 相比,所提出方法在复杂、可变环境中的表现如何?
主要发现
- 三个设定者损失(有效性、可行性、覆盖性)对于在复杂环境中取得良好性能是必要的。
- 对环境观测进行条件化设定者和评审者在变化环境中提升了性能。
- 定位已知的期望分布在某些任务上可以加速学习,尽管收益取决于任务结构。
- 在具稀疏奖励的 3D 与网格世界实验中,该方法优于基线和以往方法。
- 与 Goal GAN 相比,setter-solver 在测试任务上更稳定、效果更好。
- 该工作展示了用于目标条件代理在目标随情节变化的环境中的自动课程生成。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。