QUICK REVIEW

[논문 리뷰] Model-based Adversarial Imitation Learning

Nir Baram, Oron Anschel|arXiv (Cornell University)|2016. 12. 07.

Generative Adversarial Networks and Image Synthesis참고 문헌 17인용 수 27

한 줄 요약

이 논문은 모델 기반 적대적 모방 학습(MAIL)을 제안한다. 이는 전방 모델을 학습하여 전방향으로 경로를 추론하고, 판별기로부터의 기울기를 정책으로 역전파할 수 있도록 하는 미분 가능한 모델 기반 접근법이다. 이 방법은 모델 자유형 GAIL과 비교해 환경 상호작용 횟수를 줄이고 하이퍼파rameter 조정도 줄여, MuJoCo 이동 작업에서 최신 기술 수준(SOTA) 성능을 달성한다.

ABSTRACT

Generative adversarial learning is a popular new approach to training generative models which has been proven successful for other related problems as well. The general idea is to maintain an oracle $D$ that discriminates between the expert's data distribution and that of the generative model $G$. The generative model is trained to capture the expert's distribution by maximizing the probability of $D$ misclassifying the data it generates. Overall, the system is \emph{differentiable} end-to-end and is trained using basic backpropagation. This type of learning was successfully applied to the problem of policy imitation in a model-free setup. However, a model-free approach does not allow the system to be differentiable, which requires the use of high-variance gradient estimations. In this paper we introduce the Model based Adversarial Imitation Learning (MAIL) algorithm. A model-based approach for the problem of adversarial imitation learning. We show how to use a forward model to make the system fully differentiable, which enables us to train policies using the (stochastic) gradient of $D$. Moreover, our approach requires relatively few environment interactions, and fewer hyper-parameters to tune. We test our method on the MuJoCo physics simulator and report initial results that surpass the current state-of-the-art.

연구 동기 및 목표

모델 자유형 적대적 모방 학습에서 고분산 기울기 추정 문제를 해결하기 위해, 미분 가능한 모델 기반 대안을 도입한다.
학습된 전방 모델을 활용해 정책 학습에 필요한 환경 상호작용 횟수를 줄인다.
미분 가능한 시스템을 통해 안정적인 기울기 전파를 가능하게 해 하이퍼파rameter 민감도를 최소화한다.
전방 모델과 적대적 학습을 통합해 표본 효율성과 견고성을 향상시켜 모방 학습의 성능을 개선한다.
정책 기울기를 정책 기울기 추정기에서 벗어나 판별기로부터의 기울기를 직접 사용함으로써 고분산 기울기 추정 문제를 피한다.

제안 방법

전방 모델 $f(s, a)$를 학습하여 다음 상태 전이를 예측함으로써, 궤적의 전방향 추론을 미분 가능하게 한다.
판별기 $D(s, a)$를 사용해 전문가의 시연와 생성된 궤적을 구분하며, 전방 모델을 통해 기울기를 역전파한다.
정책 목적함수를 전체 궤적에 걸친 판별기 점수의 합을 최소화하는 방식으로 설정함으로써 기울기 기반 최적화를 가능하게 한다.
재생 버퍼를 사용해 판별기, 전방 모델, 정책을 함께 학습하며, 학습률을 점진적으로 감소시켜 학습을 안정화시킨다.
전문가 데이터에 노이즈를 추가해 판별기의 일반화 성능을 향상시켜, 특히 데이터가 적은 경우에 유리하다.
정책보다 약 2배 크고, 정책 학습률을 판별기보다 약 3배 빠르게 설정해 학습 역학을 균형 있게 유지한다.

실험 결과

연구 질문

RQ1모델 기반 접근법이 표준 역전파를 통해 전방향으로 미분 가능한 정책 학습을 가능하게 하는가?
RQ2학습된 전방 모델을 통합함으로써 모델 자유형 GAIL과 비교해 표본 복잡도와 하이퍼파rameter 민감도가 감소하는가?
RQ3전방 모델 통합이 적대적 모방 학습의 안정성과 수렴성에 어떤 영향을 미치는가?
RQ4판별기의 출력은 모방 학습 외에도 신뢰도 추정 또는 커리큘럼 학습에 활용될 수 있는가?
RQ5학습 구성(예: 학습률 비율, 네트워크 크기 등) 중 어떤 조합이 MAIL 프레임워크에서 최적의 성능을 낳는가?

주요 결과

Hopper 작업에서 MAIL은 25개의 전문가 시범 데이터를 바탕으로 평균 수익 3669.53 ± 6.09를 기록해 GAIL을 초월하는 최신 기술 수준 성능을 달성했다.
Walker 작업에서 MAIL은 25개의 전문가 시범 데이터로 수익 7070.45 ± 30.68를 기록했으며, 행동 복제와 GAIL를 모두 능가했다.
미분 가능한 전방 모델를 사용함으로써 모델 자유형 접근법보다 상당히 적은 환경 상호작용 횟수로 학습이 가능했다.
전문가 데이터에 노이즈를 추가함으로써 수렴성이 향상되었으며, 특히 데이터가 적은 환경에서 전문가 특유의 패tern에 과적합되는 것을 방지했다.
판별기 네트워크는 유용한 신뢰도 신호를 제공했으며, 이는 학습 예제 우선순위 정하기나 추론 시 정책 신뢰도 평가에 활용될 수 있었다.
더 큰 판별기(정책 크기의 약 2배)와 더 빠른 정책 학습률(판별기보다 약 3배 빠름)을 사용함으로써 성능 향상과 안정성이 향상되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.