Skip to main content
QUICK REVIEW

[论文解读] Learning Parameterized Skills

Bruno da Silva, George Konidaris|arXiv (Cornell University)|Jun 27, 2012
Reinforcement Learning in Robotics参考文献 15被引用 71
一句话总结

本文提出一种通过建模相关任务分布下策略参数流形来学习参数化技能的方法。通过采样任务实例,估计其潜在的低维流形结构,并在每个流形图册上应用非线性回归,该方法构建了一个可泛化的技能,能够从任务参数预测最优策略参数,在仅使用极少训练数据的情况下,于仿真环境中实现精确的投镖动作。

ABSTRACT

We introduce a method for constructing skills capable of solving tasks drawn from a distribution of parameterized reinforcement learning problems. The method draws example tasks from a distribution of interest and uses the corresponding learned policies to estimate the topology of the lower-dimensional piecewise-smooth manifold on which the skill policies lie. This manifold models how policy parameters change as task parameters vary. The method identifies the number of charts that compose the manifold and then applies non-linear regression in each chart to construct a parameterized skill by predicting policy parameters from task parameters. We evaluate our method on an underactuated simulated robotic arm tasked with learning to accurately throw darts at a parameterized target location.

研究动机与目标

  • 解决为一系列相关强化学习任务学习可重用、通用技能的挑战。
  • 克服为每种可能的任务变体单独训练策略的不可行性。
  • 使用低维、分段光滑的流形,建模策略参数随任务参数平滑变化的规律。
  • 通过学习策略空间的拓扑结构,构建可泛化到未见任务参数的参数化技能。
  • 实现在连续任务配置范围内的高效技能迁移与适应,而无需从头开始重新训练。

提出的方法

  • 从分布 P(τ) 中采样一组任务实例,每个实例对应一个最优策略 θτ。
  • 估计嵌入在策略参数空间(R^N)中的低维、分段光滑流形,该流形包含已学习的策略。
  • 确定表示流形所需的图册数量(局部坐标图块),以捕捉定性不同的策略。
  • 在每个图册内应用非线性回归,学习从任务参数 τ 到策略参数 θ = Θ(τ) 的映射。
  • 使用所得的参数化技能 Θ(τ) 为新的、未见过的任务参数选择策略。
  • 利用策略参数随任务参数的平滑变化,实现对训练实例之外的泛化,尤其在高维控制任务中表现突出。

实验结果

研究问题

  • RQ1我们如何学习一种可在一系列相关强化学习任务间泛化的参数化技能?
  • RQ2一类相关任务的最优策略空间的内在几何结构是什么?
  • RQ3我们能否自动识别表示策略流形所需的、不同策略(图册)的数量?
  • RQ4我们如何在有限的训练数据下,有效建模任务参数与策略参数之间的非线性关系?
  • RQ5该方法在未见任务参数上的泛化能力有多强,即在训练期间未见过的参数?

主要发现

  • 该方法成功学习到一种参数化技能,在模拟的欠驱动机械臂环境中,可在连续范围的任务参数上实现泛化。
  • 该方法正确识别了策略流形上的图册数量(局部区域),表明其能够检测出定性不同的策略。
  • 在每个图册内应用非线性回归,可准确地从任务参数预测策略参数,即使面对未见的组合也表现良好。
  • 参数化技能在不同目标位置的投镖任务中实现了高精度,证明了其在训练实例之外的有效泛化能力。
  • 该方法通过学习从任务参数到策略参数的紧凑且可泛化的映射,显著减少了对全面重训练的需求。
  • 该框架通过重用局部策略搜索方法的策略更新作为流形上的额外训练样本,支持了离策略学习。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。