[论文解读] Variational Option Discovery Algorithms
本论文介绍 VALOR,一种从轨迹解码的变分选项发现方法,以及一个课程策略以可扩展地学习数百种多样化行为;同时将 VALOR 与 VIC 和 DIAYN 进行比较,并探索下游任务的适用性与局限。
We explore methods for option discovery based on variational inference and make two algorithmic contributions. First: we highlight a tight connection between variational option discovery methods and variational autoencoders, and introduce Variational Autoencoding Learning of Options by Reinforcement (VALOR), a new method derived from the connection. In VALOR, the policy encodes contexts from a noise distribution into trajectories, and the decoder recovers the contexts from the complete trajectories. Second: we propose a curriculum learning approach where the number of contexts seen by the agent increases whenever the agent's performance is strong enough (as measured by the decoder) on the current set of contexts. We show that this simple trick stabilizes training for VALOR and prior variational option discovery methods, allowing a single agent to learn many more modes of behavior than it could with a fixed context distribution. Finally, we investigate other topics related to variational option discovery, including fundamental limitations of the general approach and the applicability of learned options to downstream tasks.
研究动机与目标
- 在没有外在奖励的情况下,研究利用变分推理方法发现选项(技能)。
- 建立变分选项发现与变分自编码器之间的联系。
- 提出 VALOR,一种基于轨迹解码的选项发现方法。
- 引入课程学习以在多上下文中稳定并加速学习。
- 评估学习到的选项的多样性、定性特征及潜在的下游应用价值。
提出的方法
- 将选项发现表述为最大化变分目标,其中上下文 c 通过策略编码到轨迹并从轨迹解码。
- 证明该目标与 beta-VA E-like bound,将 VIC/DIAYN 与 VAE 模板联系起来。
- 提出 VALOR,其中解码器仅观测完整轨迹但不观测动作,使用双向 LSTM 从轨迹增量解码上下文。
- 实现一个课程学习,当解码器性能提升时逐步增加上下文数量 K(基于阈值的增长)。
- 在运动环境(点质点、Half-Cheetah、Swimmer、Ant)中对 VALOR、VIC、DIAYN 进行比较,包含与不含课程学习的情况;采用循环策略和策略梯度训练。
- 通过将预训练的 VALOR 策略整合为分层 Ant-Maze 任务中的低层策略,探索下游任务潜力。
实验结果
研究问题
- RQ1如何将变分推断原理应用于在没有任务特定奖励的情况下发现多样化的选项?
- RQ2变分选项发现方法与变分自编码器之间的关系是什么,以及这如何指导新的算法?
- RQ3扩展上下文复杂度的课程学习是否能稳定训练并使学习成百上千种模式成为可能?
- RQ4在不同机器人环境中,VALOR、VIC 与 DIAYN 在多样性、学习速度和定性行为方面的比较是怎样的?
- RQ5学习到的选项对下游分层控制任务有用吗?
主要发现
- VALOR 将上下文编码到轨迹中,并从轨迹解码上下文,促进多样化、以轨迹为中心的行为。
- 逐步增加上下文数量的课程学习在 VALOR、VIC 和 DIAYN 中提升了训练的稳定性和速度。
- 这三种方法都学习了多种 locomotion 模式,整体性能相似;VALOR 由于以轨迹为中心的解码,产生定性上不同的行为。
- DIAYN 倾向于更快学习,因为其奖励信号更密集,而 VALOR 强调诸如环状运动等动力学模态。
- 课程学习在更大上下文集合(例如多达 64 个上下文)时实现更快的掌握,并在不同种子上获得更稳健的结果。
- 手部环境产生自然的手指行为,而高维度的人形环境(Toddler)更具挑战性,突显了纯信息理论目标的局限性。
- 预训练的 VALOR 策略可以在分层下游任务中作为有用的低层策略,表现与从头训练或非分层策略相当。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。