QUICK REVIEW

[논문 리뷰] Generative Adversarial Imitation from Observation

Faraz Torabi, Garrett Warnell|arXiv (Cornell University)|2018. 07. 17.

Reinforcement Learning in Robotics참고 문헌 35인용 수 95

한 줄 요약

GAIfO는 상태-만 시연으로부터 모방하기 위한 GAN 유사 프레임워크를 사용하여, 액션 인식 방법과 경쟁적인 성능을 달성하고 고차원 시각에서도 탁월함을 보인다.

ABSTRACT

Imitation from observation (IfO) is the problem of learning directly from state-only demonstrations without having access to the demonstrator's actions. The lack of action information both distinguishes IfO from most of the literature in imitation learning, and also sets it apart as a method that may enable agents to learn from a large set of previously inapplicable resources such as internet videos. In this paper, we propose both a general framework for IfO approaches and also a new IfO approach based on generative adversarial networks called generative adversarial imitation from observation (GAIfO). We conduct experiments in two different settings: (1) when demonstrations consist of low-dimensional, manually-defined state features, and (2) when demonstrations consist of high-dimensional, raw visual data. We demonstrate that our approach performs comparably to classical imitation learning approaches (which have access to the demonstrator's actions) and significantly outperforms existing imitation from observation methods in high-dimensional simulation environments.

연구 동기 및 목표

전문가의 행동이 이용 불가능할 때 상태-만 시연을 활용하여 모방 학습을 촉진한다.
상태 전이에 초점을 맞춘 관찰에서의 모방 (IfO)에 대한 일반 프레임워크를 제안한다.
상태-전이 비용을 복구하고 정책을 학습하기 위한 모델 프리 GAIfO 알고리즘을 개발한다.
저차원 및 고차원(시각적) 환경에서 GAIfO의 효과를 입증한다.

제안 방법

IfO에 대한 상태-전이 비용 c: S x S -> R을 상태-액션 비용 대신 정의한다.
c와 액션 없이 상태 전이를 사용하는 IRLfO로부터의 IRL를 공식화한다.
상태-전이 점유 측정치를 갖는 RL + GAN 형식으로 GAIfO를 도입한다.
전문가의 상태 전이와 모방자의 상태 전이를 구분하는 판별기 D를 사용하고 D를 속이도록 정책을 학습한다.
상태 전이(D)에 GAN 유사 손실을 두고 정책 최적화를 위한 TRPO와 함께 GAIfO 목적함수를 미니맥스 게임으로 도출한다.
저차원 상태와 시각적 상태 표현 모두에 대한 실용적 구현을 제공한다.

실험 결과

연구 질문

RQ1관찰에서의 모방이 시연자의 행동에 접근 없이도 경쟁력 있는 정책을 복원할 수 있는가?
RQ2상태 전이 정보를 어떻게 활용하여 모방자의 행동을 전문가의 행동과 일치시킬 수 있는가?
RQ3GA 정규화가 포함된 IRLfO와 상태 전이에 대한 GAN 기반 구분 간의 이론적 연결은 무엇인가?
RQ4저차원 대 고차원(시각적) 시연에서 GAIfO의 성능은 어떠한가?
RQ5시각 데이터가 우세한 복잡하고 순환하는 작업에도 GAIfO가 확장 가능한가?

주요 결과

GAIfO는 저차원 작업에서 다른 IfO 기준선과 일치하거나 이를 상회한다.
GAIfO는 시연자 행동에 접근하지 못했음에도 GAIL과 비교 가능한 성능을 보인다.
고차원 시각 환경에서 기존 IfO 방법보다 우수하다.
시간 정합 방법이 어려움을 겪는 순환적이거나 시간 연장 행동이 필요한 작업에서도 GAIfO는 효과적이다.
시각적 시연에서 GAIfO는 BCO와 TCN을 상회하고 TRPO로 학습된 시각 상태 정책의 성능에 근접한다.
이 방법은 행동 정보 없이도 상태 전이 분포를 전문가와 정렬할 수 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.