[论文解读] Policies Modulating Trajectory Generators
PMTG 将学习策略与一个参数化的轨迹生成器结合起来,使用简单策略在实时中调制 TG 参数,以实现可控、具备记忆的运动和其他周期性行为。
We propose an architecture for learning complex controllable behaviors by having simple Policies Modulate Trajectory Generators (PMTG), a powerful combination that can provide both memory and prior knowledge to the controller. The result is a flexible architecture that is applicable to a class of problems with periodic motion for which one has an insight into the class of trajectories that might lead to a desired behavior. We illustrate the basics of our architecture using a synthetic control problem, then go on to learn speed-controlled locomotion for a quadrupedal robot by using Deep Reinforcement Learning and Evolutionary Strategies. We demonstrate that a simple linear policy, when paired with a parametric Trajectory Generator for quadrupedal gaits, can induce walking behaviors with controllable speed from 4-dimensional IMU observations alone, and can be learned in under 1000 rollouts. We also transfer these policies to a real robot and show locomotion with controllable forward velocity.
研究动机与目标
- 将关于周期轨迹的先验知识并入基于学习的控制以简化策略优化。
- 通过将一个有状态的 TG 与前馈策略耦合,启用一个简单、具备记忆的控制器。
- 证明一个线性策略通过调节TG参数,在仅使用4D IMU观测的情况下即可实现可控的步态运动。
- 证明 PMTG 可以通过强化学习或进化策略进行训练,并实现从仿真到真实四足机器人的转移。
提出的方法
- 定义一个轨迹生成器(TG)作为一个有状态、参数化的模块,它基于内部状态和外部参数输出动作。
- 使用学习到的策略来调节 TG 参数并可选地纠正 TG 输出,策略观测 TG 状态和环境信号。
- 在每个时间步将 u = u_tg + u_fb 作为机器人动作,其中策略可以影响 TG 的参数,如频率、幅度和步行高度。
- 使用强化学习(PPO)或进化策略(ARS)进行训练,使用简单前馈策略(包括线性)来控制 TG。
- 通过一个合成的二维控制任务和一个四足步态任务(行走和冲刺)来说明 TG 在腿部轨迹中的作用。
- 通过 TG 提供一种记忆形式,使策略保持轻量并实现复杂行为。
实验结果
研究问题
- RQ1一个简单的前馈策略是否能够有效控制参数化的 TG,以实现可控、周期性的步态和其他循环行为?
- RQ2通过 TG 将先验轨迹知识整合是否可以减少数据需求、提高步态任务的学习效率?
- RQ3PMTG 能否实现四足步态在最小观测(仅 IMU)和简单策略下的仿真到现实转移?
- RQ4与仅反应性策略相比,PMTG 在带记忆的可控行为学习方面有何优势?
主要发现
- 当与 TG 配对时,PMTG 使简单线性策略实现可控步态成为可能。
- 学习数据效率高,一些实验在不到 1000 次回滚中就取得了良好策略。
- 策略通过调节 TG 的频率和振幅来适应速度和步态模式,并可能对 TG 输出进行纠正。
- 非 PMTG 的反应型基线(Vanilla PPO/ES)在相同任务上难以学到有效行为。
- 在仿真到 Minitaur 机器人转移的策略表明其在现实世界中的适用性。
- PMTG 使 TG 具有记忆,使简单策略能够学习复杂、鲁棒的行为。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。