[论文解读] Intrinsic Motivation and Automatic Curricula via Asymmetric Self-Play
论文介绍了带有两个策略的非对称自对弈,Alice 和 Bob,其中 Alice 生成任务,Bob 解决任务,从而实现对环境的无监督理解,加速对目标任务的学习。
We describe a simple scheme that allows an agent to learn about its environment in an unsupervised manner. Our scheme pits two versions of the same agent, Alice and Bob, against one another. Alice proposes a task for Bob to complete; and then Bob attempts to complete the task. In this work we will focus on two kinds of environments: (nearly) reversible environments and environments that can be reset. Alice will "propose" the task by doing a sequence of actions and then Bob must undo or repeat them, respectively. Via an appropriate reward structure, Alice and Bob automatically generate a curriculum of exploration, enabling unsupervised training of the agent. When Bob is deployed on an RL task within the environment, this unsupervised training reduces the number of supervised episodes needed to learn, and in some cases converges to a higher reward.
研究动机与目标
- 通过自主学习环境动力学,在没有外部奖励的情况下激励强化学习代理进行探索。
- 开发一个两代理(Alice 和 Bob)的自对弈框架,以创建越来越困难任务的课程。
- 证明自对弈产生的经验在各种连续和离散任务上能提升样本效率。
提出的方法
- 带有内部奖励的两代理设置:Bob 的任务完成会产生负的时间奖励;当 Bob 快速成功时,Alice 的任务难度增加,从而形成课程。
- 适用于可逆或可复位的环境,在这些环境中任务可表达为返回到先前状态或达到目标状态。
- Bob 的策略通过自对弈阶段获得的知识来执行目标任务的训练。
- Alice 与 Bob 的策略可以是表格型或神经网络型;两者都将状态观测与目标作为输入。
- 训练将自对弈阶段和目标任务阶段的经验结合起来,使用策略梯度优化和共享基线。
实验结果
研究问题
- RQ1自治自生成任务(通过 Alice)是否能够实现无监督课程,从而在下游目标任务上提升 Bob 的学习?
- RQ2与标准探索方法相比,自对弈课程是否能在离散和连续环境中加速学习?
- RQ3可逆环境与可重置环境如何影响非对称自对弈的设计与效果?
- RQ4在简单理论设置中,自对弈方案在多大程度上能够学习到快速到达任意状态-目标对的策略(Bob 作为通用策略)?
主要发现
- 非对称自对弈生成自动课程,在多个领域中加速目标任务的学习。
- 自对弈在若干基准测试中可以匹配或超越最先进的探索方法,有时以更快的早期学习实现相似的最终性能。
- 在可逆和可重置环境中,该方法提高了样本效率,在某些情形下也实现了目标任务的更快收敛。
- 该方法支持表格式和神经网络架构,并在与策略梯度方法结合时扩展到连续控制任务。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。