[논문 리뷰] Multi-Modal Imitation Learning from Unstructured Demonstrations using Generative Adversarial Nets
이 논문은 생성적 적대적 네트워크(GANs)를 사용하여 비정형적이고 레이블이 없는 시연 데이터로부터 스킬 분할과 정책 복제를 동시에 학습하는 다중 모odal 임의의 학습 프레임워크를 제안한다. 잠재적 의도 변수와 GAN 기반 학습 목표를 도입함으로써, 혼합된 전문가 시범을 분리하여 각각의 스킬로 나누고, 모든 스킬을 복제하는 단일 다중 모달 정책을 학습하는 데 성공하였으며, 단일 행동으로 수렴하는 단일 모달 GAN 기반 베이스라인에 비해 우수한 성능을 보였다.
Imitation learning has traditionally been applied to learn a single task from demonstrations thereof. The requirement of structured and isolated demonstrations limits the scalability of imitation learning approaches as they are difficult to apply to real-world scenarios, where robots have to be able to execute a multitude of tasks. In this paper, we propose a multi-modal imitation learning framework that is able to segment and imitate skills from unlabelled and unstructured demonstrations by learning skill segmentation and imitation learning jointly. The extensive simulation results indicate that our method can efficiently separate the demonstrations into individual skills and learn to imitate them using a single multi-modal policy. The video of our experiments is available at http://sites.google.com/view/nips17intentiongan
연구 동기 및 목표
- 실제 상황에서 흔한 비정형적이고 레이블이 없는 시범 데이터로부터의 복제 학습을 가능하게 하기 위해.
- 각 스킬에 대해 별도로 분리되거나 사전 레이블링된 시범 데이터가 필요 없이, 스킬 분할과 다중 모달 정책 학습을 동시에 수행하기 위해.
- 혼합된 시범 데이터로 훈련할 경우 단일 행동으로 수렴하는 단일 모달 정책의 한계를 극복하기 위해.
- 계층적 작업 학습과 옵션 탐색을 지원하는 확장 가능한 프레임워크를 개발하기 위해.
제안 방법
- 단일 정책 내에서 다수의 스킬을 모델링하기 위해 잠재적 의도 변수를 포함한 조건부 생성적 적대적 네트워크(cGAN)를 사용한다.
- 판별자는 전문가 시범과 생성된 시범을 구분하도록 훈련되고, 생성자는 의도 변수에 조건부로 행동을 생성하도록 학습된다.
- 생성자가 서로 다른 의도에 대응하는 다양한 행동을 생성하도록 유도하기 위해 잠재적 의도 비용을 도입하여 모드 붕괴를 방지한다.
- 생성자를 다양한 의도 상태에서 전문가 시범과 일치하도록 훈련시킴으로써, 스킬 분할과 정책 복제를 동시에 최적화한다.
- 워커-2D와 히ュ먼로이드와 같은 고차원 제어 작업에까지 확장 가능한 딥 네ural 네트워크를 활용한다.
- 강화 학습 기반 정밀 조정 방법과는 달리 전문가 보상 함수에 대한 접근이 필요 없음을 특징으로 한다.
실험 결과
연구 질문
- RQ1혼합된 작업의 비정형적이고 레이블이 없는 시범 데이터에서 훈련할 때, 단일 정책이 여러 개별 스킬을 복제할 수 있는가?
- RQ2다중 모달 복제 학습에서 모드 붕괴를 방지하기 위해 스킬 분할과 정책 학습을 어떻게 동시에 최적화할 수 있는가?
- RQ3제안된 방법은 단일 혼합 시범 시퀀스에서 의미적으로 구분되는 유의미한 스킬을 탐지할 수 있는가?
- RQ4잠재적 의도 비용을 포함함으로써, 표준 GAN 기반 복제 학습 대비 행동의 다양성과 정확성이 향상되는가?
- RQ5학습된 다중 모달 정책은 계층적 강화 학습을 위한 옵션 탐색에 사용될 수 있는가?
주요 결과
- 제안된 방법은 비정형적 시범을 분리하여 각 스킬로 분할하고, 모든 스킬을 복제하는 다중 모달 정책을 학습하여 워커-2D 환경에서 전문가 정책 수준의 성능을 달성하였다.
- 워커-2D 작업에서 잠재적 의도 비용을 사용한 방법은 앞서 달리기, 점프, 뒤로 달리기의 세 가지 행동을 모두 학습한 반면, 기준 GAN은 오직 한 모드(점프)로 수렴하였다.
- 고차원의 히ュ먼로이드 환경에서는 앞서 달리기와 균형 유지 능력을 잘 학습하였고, 뒤로 달리기에서는 최적의 성능을 내지 못했지만 여전히 단일 모달 기준선을 능가하였다.
- 프레임워크는 그립퍼-푸셔 환경에서의 집기 및 밀기와 같은 계층적 작업에서 옵션 탐색 능력을 보였으며, 실행 중 의도를 전환함으로써 이를 구현하였다.
- 시간 경과에 따른 시각화 결과는 실행 중 의도 변수를 변경했을 때 적절한 행동 전환이 발생함을 확인하였으며, 이는 옵션 탐색 능력의 타당성을 검증하였다.
- 정량적 결과는 다중 모달 정책가 다양한 의도 상태에서 전문가 수준에 가까운 보상을 달성함으로써, 효과적인 다중 작업 복제 학습이 이루어졌음을 확인하였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.