Skip to main content
QUICK REVIEW

[论文解读] Meta Learning Shared Hierarchies

Kevin Frans, Jonathan Ho|arXiv (Cornell University)|Oct 26, 2017
Reinforcement Learning in Robotics参考文献 8被引用 116
一句话总结

MLSH 在一个任务分布中学习一组共享的子策略(原语),并训练一个主策略通过在这些原语之间切换来快速适应新任务,从而提高在未见任务上的样本效率。

ABSTRACT

We develop a metalearning approach for learning hierarchically structured policies, improving sample efficiency on unseen tasks through the use of shared primitives---policies that are executed for large numbers of timesteps. Specifically, a set of primitives are shared within a distribution of tasks, and are switched between by task-specific policies. We provide a concrete metric for measuring the strength of such hierarchies, leading to an optimization problem for quickly reaching high reward on unseen tasks. We then present an algorithm to solve this problem end-to-end through the use of any off-the-shelf reinforcement learning method, by repeatedly sampling new tasks and resetting task-specific policies. We successfully discover meaningful motor primitives for the directional movement of four-legged robots, solely by interacting with distributions of mazes. We also demonstrate the transferability of primitives to solve long-timescale sparse-reward obstacle courses, and we enable 3D humanoid robots to robustly walk and crawl with the same policy.

研究动机与目标

  • 通过重用子策略(原语)来激发在相关任务分布上的快速学习。
  • 定义一个层级结构,其中主策略在共享子策略之间进行选择以驱动快速适应。
  • 提出一个优化目标,促进能够在新任务上实现快速学习的层级结构。
  • 提出一个端到端的 MLSH 算法,在暖起(warmup)阶段和联合更新阶段交替,以学习子策略。
  • 展示在 2D、3D 以及基于物理的环境中的迁移性和可扩展性。

提出的方法

  • 共享一组子策略 a8phibc;每个子策略定义一个原始策略。
  • 使用一个主策略 b8 每 N 个时间步选择要激活的子策略。
  • 暖起阶段在保持子策略固定的同时优化主策略。
  • 联合更新阶段使用环境经验同时更新主策略和子策略。
  • 将主策略决策视为较慢时间尺度上的动作,而将子策略视为可执行的原始策略。

实验结果

研究问题

  • RQ1一个元学习框架是否能够从任务分布中发现有意义且可重用的子策略?
  • RQ2在多样化环境中,使用 MLSH 的学习是否优于单一共享策略或非层级基线?
  • RQ3所发现的原语是否能迁移到更长时序或稀疏奖励任务?
  • RQ4暖起期如何影响学习子策略的质量和速度?
  • RQ5MLSH 是否能扩展到复杂的 3D 物理任务并实现新型的运动行为?

主要发现

  • MHLS 在迷宫样任务和 3D 运动场景中学习到有意义的方向性移动原语。
  • 与从零开始训练单一策略相比,带子策略的主策略训练可以加速学习。
  • MLSH 将学习到的原语迁移到稀疏奖励的障碍跑任务中,在那里朴素的 PPO 往往表现不佳。
  • 在物理环境中出现多样的子策略,使用同一原语集即可实现行走和爬行等行为。
  • 在不可解的稀疏环境中,MLSH 使得对子策略的探索成为可能,通过迁移的原语帮助恢复奖励。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。