[论文解读] Unsupervised Curricula for Visual Meta-Reinforcement Learning
本文提出CARML,一种用于无监督元强化学习的方法,通过参数化密度模型对元学习器的轨迹分布进行建模,自动生成视觉任务的课程。通过在更新任务分布与在这些任务上进行元强化学习之间交替进行,该方法实现了有效的预训练,可迁移至下游任务,并加速了像素级环境中的监督式元强化学习,即使在无手工指定奖励的情况下亦可实现。
In principle, meta-reinforcement learning algorithms leverage experience across many tasks to learn fast reinforcement learning (RL) strategies that transfer to similar tasks. However, current meta-RL approaches rely on manually-defined distributions of training tasks, and hand-crafting these task distributions can be challenging and time-consuming. Can "useful" pre-training tasks be discovered in an unsupervised manner? We develop an unsupervised algorithm for inducing an adaptive meta-training task distribution, i.e. an automatic curriculum, by modeling unsupervised interaction in a visual environment. The task distribution is scaffolded by a parametric density model of the meta-learner's trajectory distribution. We formulate unsupervised meta-RL as information maximization between a latent task variable and the meta-learner's data distribution, and describe a practical instantiation which alternates between integration of recent experience into the task distribution and meta-learning of the updated tasks. Repeating this procedure leads to iterative reorganization such that the curriculum adapts as the meta-learner's data distribution shifts. In particular, we show how discriminative clustering for visual representation can support trajectory-level task acquisition and exploration in domains with pixel observations, avoiding pitfalls of alternatives. In experiments on vision-based navigation and manipulation domains, we show that the algorithm allows for unsupervised meta-learning that transfers to downstream tasks specified by hand-crafted reward functions and serves as pre-training for more efficient supervised meta-learning of test task distributions.
研究动机与目标
- 为解决为元强化学习手动设计任务分布的挑战,该挑战在复杂环境中耗时且不切实际。
- 实现在无外部奖励或任务规范的情况下,视觉环境中无监督技能获取与探索。
- 通过基于智能体经验动态重组任务课程的闭环机制,协同优化技能发现与元学习。
- 通过判别式聚类与生成建模,将无监督元强化学习扩展至高维视觉观测空间。
- 评估无监督预训练是否可作为下游监督式元强化学习的有效初始化。
提出的方法
- 该方法采用变分期望最大化(EM)框架,其中E步在判别式学习的嵌入空间中拟合高斯混合模型(GMM),以从元学习器的轨迹数据中表示任务分布。
- M步在当前任务分布上执行元强化学习,通过从GMM中采样奖励函数来训练元策略。
- 采用判别式与生成式模型的混合架构,通过确保所学技能既可区分又多样化,避免在高维视觉空间中出现模式崩溃。
- 通过定期对近期经验重新拟合GMM,迭代式地重新组织课程,使任务分布能随智能体学习动态调整。
- 该方法利用循环元策略与对比表示学习目标,提升轨迹级任务获取的视觉特征质量。
- 采用蓄水池采样技术管理经验回放,减轻课程适应过程中的灾难性遗忘。
实验结果
研究问题
- RQ1能否自动生成无监督课程,以在无手工指定任务分布的情况下支持视觉环境中的元强化学习?
- RQ2与流水线式方法相比,协同优化技能发现与元学习在提升向下游任务迁移能力方面有何优势?
- RQ3无监督元强化学习在多大程度上可作为更高效监督式元强化学习在目标任务分布上的预训练?
- RQ4当无监督课程与下游任务语义不一致时,直接迁移存在哪些局限性?
- RQ5该方法在高维视觉观测下如何扩展,以及如何避免任务空间中的模式崩溃?
主要发现
- CARML实现了无监督元强化学习,成功将技能迁移至视觉导航与操作任务中的下游目标达成任务,即使未进行显式奖励塑造亦可实现。
- 该方法在监督式元强化学习微调中实现了更快收敛,表明无监督预训练为下游任务分布提供了强有力的初始化。
- 在ViZDoom导航环境中,CARML在直接迁移中优于基线方法,尽管性能受限于任务分布不匹配与视觉复杂性。
- 在Sawyer操作环境中,直接迁移性能弱于ViZDoom,可能由于视觉信息较少,且无监督课程与测试任务语义差距更大。
- 通过CARML学习的元策略显著加速了监督式元强化学习中的学习过程,减少了达到有效适应目标任务分布所需的样本数量。
- 消融实验表明,任务分布中判别式聚类与生成建模的结合对于避免模式崩溃及实现多样化技能获取至关重要。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。