QUICK REVIEW

[논문 리뷰] Policies Modulating Trajectory Generators

Atıl Işçen, Ken Caluwaerts|arXiv (Cornell University)|2019. 10. 07.

Robotic Locomotion and Control인용 수 38

한 줄 요약

PMTG는 학습된 정책과 매개변수화된 경로생성기(TG)를 결합하여 간단한 정책이 실시간으로 TG 매개변수를 조정하면서 기억을 갖춘 가동성과 다른 주기적 행동을 제어 가능한 형태로 생성합니다. 이 접근법은 합성 제어 및 사족보행 로봇에서 검증되었으며 시뮬레이션에서 실제로의 성공적 전이(sim-to-real transfer)로 확인되었습니다.

ABSTRACT

We propose an architecture for learning complex controllable behaviors by having simple Policies Modulate Trajectory Generators (PMTG), a powerful combination that can provide both memory and prior knowledge to the controller. The result is a flexible architecture that is applicable to a class of problems with periodic motion for which one has an insight into the class of trajectories that might lead to a desired behavior. We illustrate the basics of our architecture using a synthetic control problem, then go on to learn speed-controlled locomotion for a quadrupedal robot by using Deep Reinforcement Learning and Evolutionary Strategies. We demonstrate that a simple linear policy, when paired with a parametric Trajectory Generator for quadrupedal gaits, can induce walking behaviors with controllable speed from 4-dimensional IMU observations alone, and can be learned in under 1000 rollouts. We also transfer these policies to a real robot and show locomotion with controllable forward velocity.

연구 동기 및 목표

주기적 궤적에 대한 기존 지식을 학습 기반 제어에 통합하여 정책 최적화를 단순화한다.
상태를 가지는 TG와 피드포워드 정책을 결합하여 단순하고 기억 보강된 제어기를 가능하게 한다.
TG 매개변수를 조절하는 선형 정책이 4D IMU 관측치만으로도 제어 가능한 보행을 달성할 수 있음을 입증한다.
PMTG가 RL 또는 Evolutionary Strategies로 학습될 수 있고 시뮬레이션에서 실제 사족보행 로봇으로 전이될 수 있음을 보여준다.

제안 방법

Trajectory Generator(TG)를 내부 상태와 외부 매개변수에 기초하여 동작을 출력하는 상태 유지형 매개변수화 모듈로 정의한다.
학습된 정책을 사용하여 TG 매개변수를 조절하고 필요하면 TG 출력을 보정하며, 정책은 TG 상태와 환경 신호를 관찰한다.
각 시간 스텝에서 로봇 행동을 u = u_tg + u_fb로 결합한다. 이때 정책은 TG의 주파수, 진폭, 보행 높이와 같은 매개변수를 조정할 수 있다.
강화학습(PPO) 또는 진화전략(ARS)으로 학습하고, TG를 제어하기 위해 선형을 포함한 간단한 피드포워드 정책을 사용한다.
사족 보행의 다리 궤적에 TG를 활용하는 2D 합성 제어 과제와 보행 및 질주를 포함한 사족 보행 로봇의 보행 과제로 시연한다.
TG를 통한 기억 형식을 포함시켜 정책이 가벼워도 복잡한 행동을 달성할 수 있도록 한다.

실험 결과

연구 질문

RQ1단순한 피드포워드 정책이 매개변수화된 TG를 효과적으로 제어하여 제어 가능한 주기적 보행 및 다른 순환 동작을 달성할 수 있는가?
RQ2TG를 통한 기존 궤적 지식의 통합이 로봇 보행 작업에 필요한 데이터 양을 줄이고 학습 효율을 향상시키는가?
RQ3최소한의 관측(IMU만)과 간단한 정책으로 사족 보행의 시뮬레이션에서 실제로의 전이를 가능하게 하는가?
RQ4메모리를 이용한 제어 가능 행동 학습에서 PMTG가 순수 반응형 정책과 어떻게 비교되는가?

주요 결과

TG와 짝을 이루는 단순 선형 정책으로 제어 가능한 보행을 학습할 수 있게 한다.
데이터 효율적이며, 일부 실험에서 1000 롤아웃 미만으로 좋은 정책을 달성했다.
정책은 TG의 주파수와 진폭을 조정하여 속도와 보행 패턴에 적응시키고 TG 출력에 보정도 적용할 수 있다.
비-PMTG, 반응적 기준선(Vanilla PPO/ES)은 동일한 과제에서 효과적인 행동을 학습하는 데 어려움을 겪는다.
PMTG로 학습된 정책이 시뮬레이션에서 미니타우르 로봇으로 전이되어 실제 적용 가능성을 시연한다.
PMTG는 TG에 기억을 제공하게 하여 간단한 정책으로도 복잡하고 강건한 행동을 학습하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.