QUICK REVIEW

[논문 리뷰] Advanced Skills through Multiple Adversarial Motion Priors in Reinforcement Learning

Eric Vollenweider, Marko Bjelonic|arXiv (Cornell University)|2022. 03. 23.

Robotic Locomotion and Control인용 수 6

한 줄 요약

이 논문은 복잡한 로봇 기술을 위한 다중 공격성 운동 사전을 학습하고 전환할 수 있는 단일 정책을 가능하게 하는 강화학습 프레임워크인 Multi-AMP를 소개한다. 반전 운동 데이터를 사전으로 활용함으로써 수동적인 보상 설계를 제거하여, 휠드레그드 로봇에서 네발짓걸이에서 인간형 로봇으로의 전환 및 동적 앉기와 같은 기술을 안정적으로 실제 환경에 구현할 수 있으며, 이는 단일 스타일 학습 수준의 성능을 보인다.

ABSTRACT

In recent years, reinforcement learning (RL) has shown outstanding performance for locomotion control of highly articulated robotic systems. Such approaches typically involve tedious reward function tuning to achieve the desired motion style. Imitation learning approaches such as adversarial motion priors aim to reduce this problem by encouraging a pre-defined motion style. In this work, we present an approach to augment the concept of adversarial motion prior-based RL to allow for multiple, discretely switchable styles. We show that multiple styles and skills can be learned simultaneously without notable performance differences, even in combination with motion data-free skills. Our approach is validated in several real-world experiments with a wheeled-legged quadruped robot showing skills learned from existing RL controllers and trajectory optimization, such as ducking and walking, and novel skills such as switching between a quadrupedal and humanoid configuration. For the latter skill, the robot is required to stand up, navigate on two wheels, and sit down. Instead of tuning the sit-down motion, we verify that a reverse playback of the stand-up movement helps the robot discover feasible sit-down behaviors and avoids tedious reward function tuning.

연구 동기 및 목표

복잡한 이동 스킬을 위한 강화학습에서 보상 함수 조정 문제를 해결한다.
성능 저하 없이 다수의 이산 선택 가능한 운동 스타일을 학습하고 전환할 수 있는 단일 정책을 가능하게 한다.
공격성 운동 사전(AMP) 기법을 데이터 없이도 가능한 사전과 동적 기술 전환을 지원하도록 확장한다.
실제 로봇에서 네발짓걸이에서 인간형 로봇으로의 전환과 같은 고급 비전통적 기술을 학습할 수 있음을 입증한다.
다리가 달린 로봇을 위한 이mitation 학습에서 히우리스틱 운동 선택 및 작업별 보상 형태 조정에 대한 의존도를 줄인다.

제안 방법

각각 다른 운동 스타일에 대응하는 다수의 분류기(디스criminators)를 지원하도록 공격성 운동 사전(AMP) 프레임워크를 확장한다.
예를 들어 반전 서서 일어나기 순서와 같은 반전 운동 데이터를 사용하여, 뒤로 앉기와 같은 역행동의 학습을 안내하는 운동 사전으로 활용한다.
상태 전이가 운동 데이터와 유사한 정도에 따라 스타일별 보상을 제공하는 다수의 분류기를 갖춘 단일 정책을 훈련한다.
앉기 명령 이후 버퍼 기간을 도입하여 작업 보상과 운동 사전 목표를 분리함으로써 보상 갈등을 방지한다.
액추에이터 모델링, 무작위 외란, 관절 속도 기반 궤적 종료 기법을 적용하여 안정성을 확보하는 시뮬레이션에서 실제 환경으로의 전이 기법을 적용한다.
게임 기반 커리큘럼 훈련과 학습 중 타이밍에 맞춘 밀기 테크닉을 적용하여, 동적 일어나기와 같은 핵심 단계에서 정책의 안정성을 향상시킨다.

실험 결과

연구 질문

RQ1공격성 운동 사전를 사용하여 성능 저하 없이 다수의 전환 가능한 운동 스타일을 단일 정책이 동시에 학습할 수 있는가?
RQ2보상 형태 조정 없이도 반전 운동 데이터가 뒤로 앉기와 같은 역행동 학습에 효과적인 운동 사전로 기능할 수 있는가?
RQ3성능 및 훈련 안정성 측면에서 Multi-AMP는 단일 스타일 AMP와 비교해 어떻게 다른가?
RQ4데이터 없는 운동 사전가 Multi-AMP 프레임워크에 효과적으로 통합되어 새로운 기술을 가능하게 할 수 있는가?
RQ5복잡한 로봇 기술에서 수동 보상 함수 설계가 얼마나 줄어들 수 있는가?

주요 결과

Multi-AMP 프레임워크는 걷기, 구부정기, 네발짓걸이에서 인간형 로봇으로의 전환 등 다양한 운동 스타일을 학습하고 전환할 수 있도록 단일 정책을 성공적으로 가능하게 하였다.
반전 일어나기 운동을 사전으로 사용함으로써, 원하는 운동 스타일과 충돌할 수 있는 보상 함수 조정이 필요 없이 안정적인 앉기 동작을 학습하였다.
다양한 스타일 훈련에서 작업 성공률 및 운동 품질 측면에서 단일 스타일 훈련과 유사한 성능를 기록하였으며, 유의미한 성능 저하가 없었다.
앉기 명령 이후 버퍼 기간을 도입함으로써 보상 갈등을 방지하고, 낮은 충격을 가진 안정적인 앉기 동작을 학습할 수 있었다.
특히 동적 기술인 일어나기 동작에서 타이밍에 맞춘 밀기와 관절 속도 기반 궤적 종료 기법을 통해 정책의 안정성이 크게 향상되었다.
이 프레임워크는 휠드레그드 로봇에서 네발짓걸이에서 인간형 로봇으로의 전환을 처음으로 실제 환경에서 구현하였으며, 다리가 달린 로봇 기술 분야에서 새로운 능력을 확보하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.