Skip to main content
QUICK REVIEW

[논문 리뷰] Learning human behaviors from motion capture by adversarial imitation

Josh Merel, Yuval Tassa|arXiv (Cornell University)|2017. 07. 07.
Reinforcement Learning in Robotics참고 문헌 1인용 수 154
한 줄 요약

논문은 생성적 적대적 모방 학습(GAIL)을 확장하여 부분 관찰에서 모션 캡처로부터 인간처럼 보이는 모션 정책을 학습하고, 이를 바디 트랜스퍼 및 고수준 컨트롤러 내에서 보조 기술로 재사용 가능하게 한다.

ABSTRACT

Rapid progress in deep reinforcement learning has made it increasingly feasible to train controllers for high-dimensional humanoid bodies. However, methods that use pure reinforcement learning with simple reward functions tend to produce non-humanlike and overly stereotyped movement behaviors. In this work, we extend generative adversarial imitation learning to enable training of generic neural network policies to produce humanlike movement patterns from limited demonstrations consisting only of partially observed state features, without access to actions, even when the demonstrations come from a body with different and unknown physical parameters. We leverage this approach to build sub-skill policies from motion capture data and show that they can be reused to solve tasks when controlled by a higher level controller.

연구 동기 및 목표

  • 고차원 휴머노이드에서 수작업으로 설계된 보상 없이도 인간답고 인간처럼 보이는 움직임 생성을 동기 부여하고 가능하게 한다.
  • 부분 상태 특징에서 작동하고 행동 데이터 없이 작동하는 imitation learning 파이프라인을 개발한다.
  • 바디 트랜스퍼, 소음이 있는 모션 캡처에 대한 강건성, 그리고 상위 수준 제어에서 학습된 하위 기술의 재사용을 입증한다.
  • 다중 행위 학습을 통한 다중 행동 간의 강건한 전이의 출현을 선보인다.

제안 방법

  • 부분 관찰에 GAIL을 확장하고 다중 행위 정책 학습을 위한 컨텍스트 변수를 포함한다.
  • 액추에이터를 위한 가우시안 액션 분포를 출력하도록 확률적 신경 정책을 학습한다.
  • 정책 업데이트에 TRPO를 사용하고 데모와 정책 데이터를 구분하는 판별기로부터 파생된 적대적 보상을 적용한다.
  • 모션 캡처 기반 시연에서 저수준 제어기로의 엔드-투-엔드 파이프라인을 제공하고, 작업 학습을 위한 상위 컨트롤러와 통합한다.
  • 다양한 신체를 포함한 MuJoCo 물리 엔진을 사용하여 훈련 및 평가한다.
  • 루트에서 발, 손, 머리까지의 벡터인 엔드이펙터 기반 특징과 관성 센서를 노이즈가 있는 모션 캡처로부터의 모방을 안정화하기 위해 노출한다.

실험 결과

연구 질문

  • RQ1GAIL 모방 학습은 데모가 부분 상태 관찰과 행위 데이터 없이도 성공할 수 있는가?
  • RQ2시연자와 모방자의 신체 역학 차이(신체 전이)에 모방이 내성적일 수 있는가?
  • RQ3컨텍스트 조건부 판별기를 사용하여 여러 행동을 학습하고 전이하는 것이 견고한가?
  • RQ4모션 캡처에서 학습된 저수준 기술을 상위 컨트롤러가 새로운 작업 해결에 재사용할 수 있는가?
  • RQ5복잡한 휴머노이드가 제한적이고 노이즈가 있는 모션 캡처 데이터에서 얼마나 잘 학습하고 인간처럼 보이는 모션을 보일 수 있는가?

주요 결과

  • 부분 상태 관찰만으로도 보상에 접근하지 않고도 모방 학습이 행동을 재현할 수 있다.
  • 신체 불변 특성에 조건화된 판별기는 다른 신체 구성에서의 교차 모방 및 재대상화가 가능하도록 한다.
  • 컨텍스트 변수를 이용한 다중 행동 학습은 스킬 간의 견고한 전이를 만들어내고 궤적 중 전이를 지원한다.
  • 모션 캡처 기반 학습은 무작위 초기화나 순수 RL보다 복잡한 휴머노이드에 더 자연스러운 보행 및 넘어오기(일어섬) 동작을 가능하게 한다.
  • 엔드-이펙터 기반 특징 표현은 노이즈가 많은 모션 캡처에서의 모방을 안정화시키고 학습 모션의 인간다움 인식을 향상시킨다.
  • 모션 캡처로 학습한 하위 기술은 상위 컨트롤러에 의해 구성 및 조정되어 내비게이션, 회전, 달리기, 계단 오르기와 같은 작업을 수행하게 할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.