QUICK REVIEW

[논문 리뷰] Imitate and Repurpose: Learning Reusable Robot Movement Skills From Human and Animal Behaviors

Steven Bohez, Saran Tunyasuvunakool|arXiv (Cornell University)|2022. 03. 31.

Robotic Locomotion and Control인용 수 20

한 줄 요약

이 논문은 인간과 개의 MoCap 데이터로부터 재사용 가능한 모터-스킬 모듈을 학습하여 다족 로봇을 제어하고, 제로샷 모방 및 제어 가능한 보행과 공 드리블과 같은 다운스트림 작업을 시뮬레이션-실세계 전이와 함께 가능하게 한다.

ABSTRACT

We investigate the use of prior knowledge of human and animal movement to learn reusable locomotion skills for real legged robots. Our approach builds upon previous work on imitating human or dog Motion Capture (MoCap) data to learn a movement skill module. Once learned, this skill module can be reused for complex downstream tasks. Importantly, due to the prior imposed by the MoCap data, our approach does not require extensive reward engineering to produce sensible and natural looking behavior at the time of reuse. This makes it easy to create well-regularized, task-oriented controllers that are suitable for deployment on real robots. We demonstrate how our skill module can be used for imitation, and train controllable walking and ball dribbling policies for both the ANYmal quadruped and OP3 humanoid. These policies are then deployed on hardware via zero-shot simulation-to-reality transfer. Accompanying videos are available at https://bit.ly/robot-npmp.

연구 동기 및 목표

인간/동물 움직임 프라이어를 활용하여 다족 로봇 보행 locomotion을 개선하려는 동기를 제시한다.
MoCap 데이터로 학습된 일반적인 스킬 모듈을 개발하여 다양한 작업에서 재사용 가능하게 한다.
정규화된 자연스러운 모션을 활용하여 시뮬레이션에서 실로의 제로샷 전이를 가능하게 한다.
두 개의 로봇 플랫폼에서 제어 가능한 보행과 공 드리블을 포함한 다운스트림 작업의 성능을 보여준다.

제안 방법

사람 또는 개의 MoCap 데이터를 두 로봇(ANYmal quadruped 및 OP3 humanoid)으로 리타게팅한다.
미래의 궤적 프레임을 잠재 스킬로 매핑하는 인코더와 잠재 스킬을 관절 명령으로 매핑하는 디코더를 갖춘 보편적 목표-조건 임 imit정 정책을 학습한다.
정보 병목을 부과하고 잠재 공간을 Gaussian AR(1) 프라이어로 toward 정규화하여 재사용 가능한 컴팩트한 스킬 공간을 얻는다.
다운스트림 작업을 위해 잠재 행동을 출력하는 정책을 학습시켜 디코더를 저수준 스킬 모듈로 재사용한다.
제로샷 시뮬레이션-실전 전이를 가능하게 하기 위해 도메인 및 다이나믹스 무작위화를 사용하여 시뮬레이션에서만 학습한다.
시뮬레이션과 하드웨어에서 제로샷 모방과 다운스트림 작업을 평가한다.

실험 결과

연구 질문

RQ1MoCap에서 파생된 프라이어가 다족 로봇 제어를 위한 일반화 가능한 프라이어가 될 수 있는가?
RQ2하나의 스킬 모듈이 다양한 MoCap 궤적의 광범위한 모방에 재사용되어 다양한 작업에 활용될 수 있는가?
RQ3시뮬레이션에서 학습된 스킬 모듈이 작업별 보상 엔지니어링 없이 실 로봇으로 전이될 수 있는가?
RQ4같은 스킬 모듈이 서로 다른 형상에서 제어 가능한 보행 및 공 드리블과 같은 작업을 얼마나 잘 지원하는가?

주요 결과

스킬 모듈은 시뮬레이션 및 하드웨어 모두에서 ANYmal 및 OP3의 핵심 모션 프리미티브에 대해 MoCap 클립의 제로샷 모방을 충실하게 가능하게 한다.
동일한 스킬 모듈을 재사용하여 방향 및 속도에 따라 제어 가능한 보행을 시뮬레이션 및 하드웨어에서 높은 트래킹 정확도로 달성할 수 있다.
모듈은 시뮬레이션과 하드웨어 모두에서 공 드리블을 높은 정확도로 수행하여 목표 지향적 팔다리 상호작용을 입증한다.
도메인 및 다이나믹스 무작위화와 AR(1) 프라이어 안정화 정규화는 강건한 시뮬레이션-실전 전이를 지원하고 자연스러운 움직임 스타일을 촉진한다.
모방 시점의 정규화 강도는 스타일을 보존하고 재사용성을 높이며, 모방과 재사용 간의 균형을 맞춘 스케줄이 전반적인 성능을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.