[논문 리뷰] Robust Imitation of Diverse Behaviors
논문은 변분 오토인코더 기반 정책과 조건부 GAN 스타일의 모방 목표를 결합하여 고차원 로봇 시스템에서 여러 동작에 대해 견고하고 다양하며 원샷 모방을 달성한다.
Deep generative models have recently shown great promise in imitation learning for motor control. Given enough data, even supervised approaches can do one-shot imitation learning; however, they are vulnerable to cascading failures when the agent trajectory diverges from the demonstrations. Compared to purely supervised methods, Generative Adversarial Imitation Learning (GAIL) can learn more robust controllers from fewer demonstrations, but is inherently mode-seeking and more difficult to train. In this paper, we show how to combine the favourable aspects of these two approaches. The base of our model is a new type of variational autoencoder on demonstration trajectories that learns semantic policy embeddings. We show that these embeddings can be learned on a 9 DoF Jaco robot arm in reaching tasks, and then smoothly interpolated with a resulting smooth interpolation of reaching behavior. Leveraging these policy representations, we develop a new version of GAIL that (1) is much more robust than the purely-supervised controller, especially with few demonstrations, and (2) avoids mode collapse, capturing many diverse behaviors when GAIL on its own does not. We demonstrate our approach on learning diverse gaits from demonstration on a 2D biped and a 62 DoF 3D humanoid in the MuJoCo physics environment.
연구 동기 및 목표
- Demonstration trajectories를 이용한 의미적 임베딩 공간을 VAE로 학습하여 매끄러운 정책 보간을 가능하게 한다.
- VAE 기반 임베딩과 조건부 GAN 스타일 모방 목표를 결합하여 brittle한 현상과 모드 붕괴를 해결한다.
- MuJoCo의 다 DOF 로봇에서 소수의 시연으로 강건하고 다양한 행동 모방을 입증한다.
- 새로운 궤적을 학습된 임베딩 공간으로 매핑하여 원샷 모방을 가능하게 한다.
- 62-DOF 휴 humanoid와 같은 고차원 신체에 대한 확장성을 보여준다.
제안 방법
- 시연 시퀀스에 대해 bidirectional LSTM 인코더와 두 개의 디코더(액션 및 상태 다이내믹스)를 갖춘 변분 오토인코더를 학습한다.
- (상태, 임베딩)에서 MLP를 사용해 액션을 디코드하고 WaveNet 기반 상태 모델을 통해 다음 상태를 자기회귀적으로 디코드한다.
- 잠재 z를 얻기 위해 확률적 VAE를 사용하고 재구성 손실에 KL 발산을 p(z)로 최소화한다.
- 판별기를 VAE 임베딩 z에 조건화하고 q(z|x)를 주변화하여 GAIL을 확장한다.
- 보상 r(x,a|z) = -log(1 - Dψ(x,a|z))를 사용하고 학습의 안정화를 위해 고정된 VAE 사전 분포로 정책을 업데이트하는 TRPO를 사용한다.
- 탐색을 위한 탐색을 위해 μθ(x,z) + μα(x,z) 주변의 가우시안으로 조건부 정책을 훈련시키고, VAE 평균 주위에서 정책을 초기화한다.
실험 결과
연구 질문
- RQ1VAE 기반 임베딩 공간이 시연에서 의미적으로 해석 가능하고 보간 가능한 행동 카테고리를 포착하는가?
- RQ2VAE 임베딩으로 조건화된 GAIL이 모드 붕괴를 줄이고 학습된 행동의 다양성을 향상시키는가?
- RQ3다양한 신체(팔, 보행기, 휴머노이드) 간에 소수의 시연으로도 강건하고 다양한 정책을 학습할 수 있는가?
- RQ4엔코더가 novel trajectory를 임베딩 공간으로 매핑하여 효과적인 원샷 모방이 가능한가?
- RQ562-DOF 휴머노이드와 같은 고차원 제어 문제에 이 방법이 얼마나 잘 확장되는가?
주요 결과
- VAE는 시연 간의 매끄러운 정책 보간을 가능하게 하는 구조화된 임베딩 공간을 학습한다.
- 잠재 공간에서의 보간은 Jaco 암의 작업 공간 보간과 대응된다.
- VAE 임베딩으로 조건화된 판별기는 순수 BC나 vanilla GAIL보다 더 견고하고 다양한 모방을 생성한다.
- 적대적 학습은 다양한 스타일과 보지 못한 궤적에 대해 2D 보행기의 속도-매칭 속도와 안정성을 개선한다.
- 고차원 휴머노이드에 대해 강건한 모방을 제시하고 비적응 기준선보다 낙하율을 감소시킨다.
- 실증적 결과는 임베딩 공간에서의 움직임 속도에 따른 군집화와 행동 간의 의미 있는 전이를 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.