QUICK REVIEW

[논문 리뷰] InfoGAIL: Interpretable Imitation Learning from Visual Demonstrations

Yunzhu Li, Jiaming Song|arXiv (Cornell University)|2017. 03. 26.

Reinforcement Learning in Robotics참고 문헌 39인용 수 141

한 줄 요약

InfoGAIL은 GAIL에 잠재 변수를 추가하여 전문가 시演에서 잠재 요인을 발견하고 해리시키며, 시각 입력에서의 설명 가능한 모방 학습과 감독 없이도 여러 행동 모드를 학습할 수 있게 한다.

ABSTRACT

The goal of imitation learning is to mimic expert behavior without access to an explicit reward signal. Expert demonstrations provided by humans, however, often show significant variability due to latent factors that are typically not explicitly modeled. In this paper, we propose a new algorithm that can infer the latent structure of expert demonstrations in an unsupervised way. Our method, built on top of Generative Adversarial Imitation Learning, can not only imitate complex behaviors, but also learn interpretable and meaningful representations of complex behavioral data, including visual demonstrations. In the driving domain, we show that a model learned from human demonstrations is able to both accurately reproduce a variety of behaviors and accurately anticipate human actions using raw visual inputs. Compared with various baselines, our method can better capture the latent structure underlying expert demonstrations, often recovering semantically meaningful factors of variation in the data.

연구 동기 및 목표

전문가 시演에서 다중 전략에 걸친 잠재 변이가 존재할 때 imitation 학습의 동기를 제시한다.
GAIL을 확장하여 시演의 변이의 잠재 요인을 발견하고 해리하도록 한다.
원시 시각 입력으로부터 학습하고 의미 있게 해석 가능한 잠재 구조를 회복한다.

제안 방법

GAIL에 혼합 전문가 정책 π_E = {π_E^0, π_E^1, ...} 중에서 선택하는 잠재 변수 c를 추가한다.
상관 관계를 규제하는 상호정보 I(c; τ) 항을 가변(bound) L_I(π,Q)으로 근사시켜 c가 궤적의 중요한 요인을 포착하도록 한다.
InfoGAIL 목적 함수를 최적화한다: min_π,Q max_D E_π[log D(s,a)] + E_{π_E}[log(1−D(s,a))] − λ1 L_I(π,Q) − λ2 H(π).
비용이 많이 드는 궤적 수준 계산을 피하기 위해 간소화된 후사 분포 Q(c|s,a)를 사용한다.
Optimization을 Wasserstein GAN 목표, 보상 증가, 분산 감소 기법, 정책 업데이트를 위한 TRPO로 보강한다.

실험 결과

연구 질문

RQ1정책의 잠재 변수들이 전문가 시演의 잠재 변 Variation을 포착하고 해리할 수 있는가?
RQ2InfoGAIL이 감독 없이도 시각 입력으로부터 의미 있게 변이의 요인을 식별할 수 있는가(예: 운전 스타일)?
RQ3이 접근법은 원시 픽셀로부터 학습하고 운전 시나리오에서 모드별 행동을 생성할 수 있는가?

주요 결과

InfoGAIL은 세 개의 원형 궤적이 존재하는 합성 2D 과제에서 여러 전문가 모드를 구분하고 모방하는 방법을 학습한다.
운전 실험에서 원시 시각 입력으로 학습한 InfoGAIL은 내측 차선과 외측 차선에서의 회전, 좌측/우측으로의 추월 등 잠재 코드를 반영한 서로 다른 운전 행동을 높은 정확도로 재현하고 구분할 수 있다.
후방 추론 Q(c|s,a)가 운전 과제에서 잠재 코드 식별에 대해 81%를 넘는 정확도와 회전의 경우 거의 완벽한 정확도를 달성한다.
InfoGAIL은 행동 복제 및 표준 GAIL보다 더 높은 평균 롤아웃 거리을 달성하며, 보상 증가 및 고급 최적화 하에서 일부 인간 시演보다도 우수한 성능을 보일 수 있다.
사전 학습된 CNN 특징(ImageNet)을 활용한 전이 학습은 비교적 적은 시演으로 고차원 시각 입력으로부터 학습을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.