Skip to main content
QUICK REVIEW

[论文解读] Policies Modulating Trajectory Generators

Atıl Işçen, Ken Caluwaerts|arXiv (Cornell University)|Oct 7, 2019
Robotic Locomotion and Control被引用 38
一句话总结

PMTG 将学习策略与一个参数化的轨迹生成器结合起来,使用简单策略在实时中调制 TG 参数,以实现可控、具备记忆的运动和其他周期性行为。

ABSTRACT

We propose an architecture for learning complex controllable behaviors by having simple Policies Modulate Trajectory Generators (PMTG), a powerful combination that can provide both memory and prior knowledge to the controller. The result is a flexible architecture that is applicable to a class of problems with periodic motion for which one has an insight into the class of trajectories that might lead to a desired behavior. We illustrate the basics of our architecture using a synthetic control problem, then go on to learn speed-controlled locomotion for a quadrupedal robot by using Deep Reinforcement Learning and Evolutionary Strategies. We demonstrate that a simple linear policy, when paired with a parametric Trajectory Generator for quadrupedal gaits, can induce walking behaviors with controllable speed from 4-dimensional IMU observations alone, and can be learned in under 1000 rollouts. We also transfer these policies to a real robot and show locomotion with controllable forward velocity.

研究动机与目标

  • 将关于周期轨迹的先验知识并入基于学习的控制以简化策略优化。
  • 通过将一个有状态的 TG 与前馈策略耦合,启用一个简单、具备记忆的控制器。
  • 证明一个线性策略通过调节TG参数,在仅使用4D IMU观测的情况下即可实现可控的步态运动。
  • 证明 PMTG 可以通过强化学习或进化策略进行训练,并实现从仿真到真实四足机器人的转移。

提出的方法

  • 定义一个轨迹生成器(TG)作为一个有状态、参数化的模块,它基于内部状态和外部参数输出动作。
  • 使用学习到的策略来调节 TG 参数并可选地纠正 TG 输出,策略观测 TG 状态和环境信号。
  • 在每个时间步将 u = u_tg + u_fb 作为机器人动作,其中策略可以影响 TG 的参数,如频率、幅度和步行高度。
  • 使用强化学习(PPO)或进化策略(ARS)进行训练,使用简单前馈策略(包括线性)来控制 TG。
  • 通过一个合成的二维控制任务和一个四足步态任务(行走和冲刺)来说明 TG 在腿部轨迹中的作用。
  • 通过 TG 提供一种记忆形式,使策略保持轻量并实现复杂行为。

实验结果

研究问题

  • RQ1一个简单的前馈策略是否能够有效控制参数化的 TG,以实现可控、周期性的步态和其他循环行为?
  • RQ2通过 TG 将先验轨迹知识整合是否可以减少数据需求、提高步态任务的学习效率?
  • RQ3PMTG 能否实现四足步态在最小观测(仅 IMU)和简单策略下的仿真到现实转移?
  • RQ4与仅反应性策略相比,PMTG 在带记忆的可控行为学习方面有何优势?

主要发现

  • 当与 TG 配对时,PMTG 使简单线性策略实现可控步态成为可能。
  • 学习数据效率高,一些实验在不到 1000 次回滚中就取得了良好策略。
  • 策略通过调节 TG 的频率和振幅来适应速度和步态模式,并可能对 TG 输出进行纠正。
  • 非 PMTG 的反应型基线(Vanilla PPO/ES)在相同任务上难以学到有效行为。
  • 在仿真到 Minitaur 机器人转移的策略表明其在现实世界中的适用性。
  • PMTG 使 TG 具有记忆,使简单策略能够学习复杂、鲁棒的行为。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。