Skip to main content
QUICK REVIEW

[논문 리뷰] f-GAIL: Learning f-Divergence for Generative Adversarial Imitation Learning

Xin Zhang, Yanhua Li|arXiv (Cornell University)|2020. 01. 01.
Model Reduction and Neural Networks인용 수 2
한 줄 요약

f-GAIL는 전문가 시범 데이터로부터 최적의 f-발산 측도와 정책을 동시에 학습하는 새로운 생성적 적대적 모방 학습 프레임워크를 제안한다. 이는 사전에 정의된 발산 측도를 사용하는 기준선 대비 여섯 개의 물리 기반 제어 과제에서 뛰어난 데이터 효율성과 정책 성능을 달성한다.

ABSTRACT

Imitation learning (IL) aims to learn a policy from expert demonstrations that minimizes the discrepancy between the learner and expert behaviors. Various imitation learning algorithms have been proposed with different pre-determined divergences to quantify the discrepancy. This naturally gives rise to the following question: Given a set of expert demonstrations, which divergence can recover the expert policy more accurately with higher data efficiency? In this work, we propose $f$-GAIL, a new generative adversarial imitation learning (GAIL) model, that automatically learns a discrepancy measure from the $f$-divergence family as well as a policy capable of producing expert-like behaviors. Compared with IL baselines with various predefined divergence measures, $f$-GAIL learns better policies with higher data efficiency in six physics-based control tasks.

연구 동기 및 목표

  • 모방 학습에 적합한 발산 측도를 선택하는 문제에 대응하며, 이는 정책 품질과 데이터 효율성에 큰 영향을 미친다.
  • f-발산 가족에서 발산 자체를 학습하는 것이 고정된 사전 정의된 발산을 사용하는 것보다 더 나은 모방 성능을 낼 수 있는지 조사한다.
  • 정책과 발산 측도를 동시에 최적화하는 통합 프레임워크를 개발한다.
  • 전문가 시범 데이터에 적응하는 불일치 측도를 통해 모방 학습의 데이터 효율성을 향상시킨다.

제안 방법

  • f-GAIL는 학습 가능한 구성 요소로 미분 가능한 f-발산 가족을 도입하며, 이 발산 함수는 신경망에 의해 매개변수화된다.
  • 프레임워크는 전문가 시범 데이터를 사용하여 정책과 f-발산 함수를 동시에 최적화하는 생성적 적대적 학습 목표를 활용한다.
  • f-발산은 전문가 경로와 생성된 경로를 구분하는 디스crimิน레이터를 통해 엔드 투 엔드로 학습되며, 디스crimิน레이터의 출력을 사용해 발산을 계산한다.
  • 정책은 전문가 행동과 유사한 행동 간에 학습된 f-발산을 최소화하도록 훈련되어, 더 나은 행동 클로닝이 가능해진다.
  • 안정적인 최적화를 위해 f-발산을 근사하기 위해 변분 하한을 사용한다.
  • 정책과 f-발산은 상호 교대로 업데이트되는 적대적 방식으로 훈련된다.

실험 결과

연구 질문

  • RQ1데이터로부터 f-발산 측도를 학습하는 것이 고정된 사전 정의된 발산을 사용하는 것보다 더 나은 모방 성능을 낼 수 있는가?
  • RQ2f-GAIL의 정책과 발산의 공동 최적화는 고정된 발산을 사용하는 기준선 대비 데이터 효율성 측면에서 어떻게 비교되는가?
  • RQ3학습된 f-발산은 다양한 제어 과제에서 서로 다른 전문가 시범 분포에 효과적으로 적응하는가?
  • RQ4f-GAIL는 높은 샘플 효율성을 유지하면서 여러 물리 기반 제어 환경에서 일반화 가능한가?

주요 결과

  • f-GAIL는 여섯 개의 물리 기반 제어 과제에서 사전 정의된 발산을 사용하는 모든 기준선 방법보다 뛰어난 정책 성능을 달성한다.
  • f-GAIL에서 학습된 f-발산은 더 높은 데이터 효율성을 제공하여 최적 성능에 도달하기 위해 더 적은 전문가 시범 데이터가 필요하다.
  • f-GAIL는 표준 GAIL, BC 및 기타 발산 기반 모방 학습 방법과 비교해 최종 정책 수익과 학습 속도 양면에서 모두 기준선을 능가한다.
  • 제거 실험을 통해 f-발산과 정책의 공동 학습이 성능 향상에 필수적임을 확인하였으며, 이를 분리하면 성능이 저하됨을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.