QUICK REVIEW

[논문 리뷰] Wasserstein Adversarial Imitation Learning

Huang Xiao, Michael Herman|arXiv (Cornell University)|2019. 06. 19.

Adversarial Robustness in Machine Learning참고 문헌 35인용 수 35

한 줄 요약

이 논문은 apprenticeship learning과 Optimal Transport를 연결하여 Wasserstein Adversarial Imitation Learning (WAIL)을 만들어내고, Kantorovich potentials를 보상으로 사용하며 엔트로피 정규화 OT를 통해 소수의 시연으로부터 확장 가능한 모방 학습을 수행한다.

ABSTRACT

Imitation Learning describes the problem of recovering an expert policy from demonstrations. While inverse reinforcement learning approaches are known to be very sample-efficient in terms of expert demonstrations, they usually require problem-dependent reward functions or a (task-)specific reward-function regularization. In this paper, we show a natural connection between inverse reinforcement learning approaches and Optimal Transport, that enables more general reward functions with desirable properties (e.g., smoothness). Based on our observation, we propose a novel approach called Wasserstein Adversarial Imitation Learning. Our approach considers the Kantorovich potentials as a reward function and further leverages regularized optimal transport to enable large-scale applications. In several robotic experiments, our approach outperforms the baselines in terms of average cumulative rewards and shows a significant improvement in sample-efficiency, by requiring just one expert demonstration.

연구 동기 및 목표

모방 학습을 위한 매끄럽고 해석 가능한 보상 공간을 형성한다.
최적운송을 활용하여 IRL/IL과 Wasserstein 거리 사이를 연결하고 전문가 정책과 학습된 정책 간의 principled한 거리를 제공한다.
정규화된 OT를 이용해 최소한의 전문가 시연으로 정책을 학습하는 확장 가능한 알고리즘(WAIL)을 개발한다.
WAIL이 로봇 제어 과제에서 베이스라인보다 샘플 효율성과 보상을 우수하게 달성한다는 것을 실험적으로 보여준다.

제안 방법

occupancy measures(rho_pi, rho_E) 간의 Wasserstein 거리와 Kantorovich potentials를 보상으로 사용하여 엔트로피 정규화 IRL을 최소화하는 방식으로 apprenticeship learning을 형식화한다.
상태-액션 공간에서의 ground cost d를 사용하는 1-Wasserstein 거리를 채택하고 OT 이중 최적화에서 엔트로피 정규화 또는 L2 정규화를 통해 Lipschitz(1) 정규화를 강제한다.
Kantorovich potential을 보상 함수 r_w로 매개화하고 전문가 및 정책에서 샘플을 통한 확률적 경사 하강법으로 최적화하며, 정책은 정책 그래디언트와 엔트로피 정규화를 더한 형태로 업데이트한다.
OT 단계가 보상 함수를 업데이트하는 동안 KL-제한 자연 그래디언트 단계를 포함하는 TRPO로 정책을 업데이트한다.
KL-스텝 한계 조건에 대한 수렴성을 보이고 OT 보상 업데이트와 정책 업데이트를 교대로 수행하는 알고리즘 1(WAIL)을 제시한다.
학습된 보상 함수가 유효하며 baselines의 판별기 기반 보상보다 더 매끄럽다는 것을 보여준다.

실험 결과

연구 질문

RQ1 occupancy measures 사이의 Wasserstein 거리가 모방 학습에 대해 원칙적이고 매끄러운 보상 신호를 제공하는가?
RQ2정규화된 최적운송이 연속 제어 과제에서 Jensen-Shannon 기반 적대적 모방 학습보다 더 나은 샘플 효율성과 성능을 내는가?
RQ3칸토로비치 포텐셜을 보상으로 삼는 것이 모델 프리 프레임워크에서 학습 및 태스크 간 이전이 가능한가?
RQ4WAIL과 Generative Adversarial Imitation Learning(GAIL), 행동 복제(behavior cloning) 간의 전문가 데이터 요구량 차이는 무엇인가?

주요 결과

WAIL은 여러 제어 과제에서 평균 누적 보상 측면에서 베이스라인(GAIL 및 BC)을 능가한다.
WAIL은 전문가 샘플 효율성이 강하고, 때로는 단 한 번의 시연으로도 전문가 행동에 근접한다.
WAIL이 학습한 보상 표면은 GAIL의 판별기 기반 보상보다 더 매끄럽고 특히 작은 데이터 세트에서 더 유익하다.
고전 제어 과제에서 모든 방법이 한 번의 시연으로 거의 전문가 성능에 도달하는 반면, WAIL은 MuJoCo 환경의 대부분의 과제와 데이터 규모에서 우위를 점한다.
이론적 결과는 KL-스텝 감소 조건 하에서 알고리즘의 수렴성을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.