QUICK REVIEW

[论文解读] Advanced Skills through Multiple Adversarial Motion Priors in Reinforcement Learning

Eric Vollenweider, Marko Bjelonic|arXiv (Cornell University)|Mar 23, 2022

Robotic Locomotion and Control被引用 6

一句话总结

本文提出 Multi-AMP，一种强化学习框架，使单一策略能够学习并切换多种对抗性运动先验，以实现复杂的机器人技能。通过利用反转运动数据作为先验，该方法消除了繁琐的奖励工程，实现了在轮式腿足机器人上对四足到人形转换、动态坐下等技能的鲁棒现实部署，性能与单风格训练相当。

ABSTRACT

In recent years, reinforcement learning (RL) has shown outstanding performance for locomotion control of highly articulated robotic systems. Such approaches typically involve tedious reward function tuning to achieve the desired motion style. Imitation learning approaches such as adversarial motion priors aim to reduce this problem by encouraging a pre-defined motion style. In this work, we present an approach to augment the concept of adversarial motion prior-based RL to allow for multiple, discretely switchable styles. We show that multiple styles and skills can be learned simultaneously without notable performance differences, even in combination with motion data-free skills. Our approach is validated in several real-world experiments with a wheeled-legged quadruped robot showing skills learned from existing RL controllers and trajectory optimization, such as ducking and walking, and novel skills such as switching between a quadrupedal and humanoid configuration. For the latter skill, the robot is required to stand up, navigate on two wheels, and sit down. Instead of tuning the sit-down motion, we verify that a reverse playback of the stand-up movement helps the robot discover feasible sit-down behaviors and avoids tedious reward function tuning.

研究动机与目标

解决复杂运动技能强化学习中的奖励函数调优挑战。
使单一策略能够学习并切换多种离散可选的运动风格，且不造成性能下降。
将对抗性运动先验（AMP）方法扩展至支持无数据运动先验和动态技能切换。
证明在真实机器人上学习高级、非传统技能（如四足到人形转换）的可行性。
减少模仿学习中对启发式运动选择和任务特定奖励设计的依赖，适用于腿足机器人。

提出的方法

将对抗性运动先验（AMP）框架扩展为支持多个判别器，每个判别器对应一种独特的运动风格。
使用反转运动数据（如反转的站立动作序列）作为运动先验，以指导坐下等逆向行为的学习。
训练单一策略，通过多个判别器基于状态转移与运动数据的相似性提供风格特定的奖励。
在坐下指令后引入缓冲期，以解耦任务奖励与运动先验目标，防止奖励冲突。
应用仿真到现实迁移技术，包括执行器建模、随机扰动以及基于关节速度的轨迹终止，以提升鲁棒性。
采用游戏化课程训练和学习过程中的定时推力，以提升关键阶段（如动态站立）的策略鲁棒性。

实验结果

研究问题

RQ1能否在单一策略中使用对抗性运动先验，同时学习多种可切换的运动风格且不造成性能下降？
RQ2反转运动数据能否在无需奖励设计的情况下，有效作为学习逆向行为（如从站立到坐下）的运动先验？
RQ3与单风格 AMP 相比，Multi-AMP 在策略性能和训练稳定性方面表现如何？
RQ4能否有效将无数据运动先验集成到 Multi-AMP 框架中，以支持新技能的实现？
RQ5Multi-AMP 在多大程度上能够减少复杂机器人技能中的人工奖励函数工程需求？

主要发现

Multi-AMP 框架成功使单一策略能够学习并切换多种运动风格，包括行走、下蹲以及四足到人形转换。
机器人通过使用反转站立动作为先验，学习到了稳定的坐下动作，避免了原本会与期望运动风格冲突的奖励函数调优。
多风格训练的性能与单风格训练相当，任务成功率和运动质量均无显著下降。
在坐下指令后引入缓冲期有效防止了奖励冲突，并使策略能够学习到低冲击、稳定的坐下动作。
通过定时推力和基于关节速度的轨迹终止，显著提升了鲁棒性，尤其在高动态技能（如站立）中表现突出。
该框架首次在真实机器人上实现了轮式腿足四足机器人上四足到人形转换的演示，标志着腿足机器人领域的一项全新能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。