QUICK REVIEW

[논문 리뷰] Generative Adversarial Imitation Learning

Jonathan Ho, Stefano Ermon|arXiv (Cornell University)|2016. 06. 10.

Reinforcement Learning in Robotics참고 문헌 21인용 수 369

한 줄 요약

요약: 강화 신호나 전문가와의 상호 작용 없이 전문가 시연으로부터 정책을 직접 학습하기 위한, 생성적 적대 신경망(GAN)에서 영감을 받은 모델-프리 모방 학습 알고리즘을 제시한다. 이것은 모방 학습을 GAN과 유사한 설정을 통해 점유-측정(occupancy-measure) 매칭으로 프레이밍하며, 고차원 제어 과제에서 강력한 성능을 달성한다.

ABSTRACT

Consider learning a policy from example expert behavior, without interaction with the expert or access to reinforcement signal. One approach is to recover the expert's cost function with inverse reinforcement learning, then extract a policy from that cost function with reinforcement learning. This approach is indirect and can be slow. We propose a new general framework for directly extracting a policy from data, as if it were obtained by reinforcement learning following inverse reinforcement learning. We show that a certain instantiation of our framework draws an analogy between imitation learning and generative adversarial networks, from which we derive a model-free imitation learning algorithm that obtains significant performance gains over existing model-free methods in imitating complex behaviors in large, high-dimensional environments.

연구 동기 및 목표

전문가의 궤적 데이터로부터 전문가를 질의하거나 강화 신호를 사용하지 않고 직접 정책을 학습하는 것을 동기화한다.
중간 단계로 역강화학습을 우회하여 확장 가능한 모방 학습 프레임워크를 개발한다.
적대적 학습(adversarial training)을 활용하여 학습자의 상태-행동 점유를 전문가의 점유와 정렬한다.
고차원 환경에서 기존의 모델-프리 모방 방법에 비해 성능 향상을 시연한다.

제안 방법

점유-측정 간 Jensen-Shannon 발산과 인과 엔트로피 정규화를 더한 것을 최소화하는 방식으로 모방 학습을 형식화한다.
soft occupancy-measure 매칭 목적을 유도하는 볼록 쌍대(convex conjugate)인 정규화 항 psi_GA를 도입한다.
실용적인 알고리즘(Generative Adversarial Imitation Learning)을 도출하는데, 이는 학습자와 전문가의 전이 데이터를 구별하는 판별기 D를 훈련시키고 로그(D)를 비용으로 삼아 TRPO와 유사한 스텝으로 정책 π를 업데이트하는 과정을 교대한다.
학습자의 점유를 생성기 분포로, 전문가의 점유를 목표 분포로 간주하여 알고리즘을 GAN에 연결한다.
정책과 판별기 모두에 신경망 매개변수를 사용하고 D에 대해 Adam 업데이트를, 정책에 대해 KL-제한된 자연 그래디언트 스텝을 적용한다.

실험 결과

연구 질문

RQ1직접 정책 학습이 IRL이나 강화 신호 없이 가능한가?
RQ2고차원적 연속 제어 과제에서도 기존의 베이스라인을 능가하면서 모델-프리 모방 방법이 확장 가능한가?
RQ3적대적 학습 목표가 전통적 견습 학습 방법보다 전문가와의 점유 매칭에 더 근접한가?

주요 결과

제안된 Generative Adversarial Imitation Learning(GAIL)은 여러 물리 기반 제어 과제에서 행동 복제(behavioral cloning), FEM, GTAL을 능가한다.
GAIL은 cartpole, acrobot, mountain car와 같은 고전 제어 과제에서 다양한 데이터 세트 크기에서 거의 전문가 수준의 성능을 달성한다.
여러 MuJoCo 환경에서 GAIL은 베이스라인에 비해 큰 성능 향상을 제공하며 종종 전문가 성능의 상당 부분에 도달한다.
일부 과제(Reacher)에서 인과 엔트로피 정규화를 통해 샘플 효율성이 추가로 향상될 수 있다.
GAIL은 점유 간 거리(JS 발산)를 실제로 최소화하여 점유 매칭을 수행하므로, 전문가에 대한 더 가까운 모방이 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.