QUICK REVIEW

[논문 리뷰] Variational Discriminator Bottleneck: Improving Imitation Learning, Inverse RL, and GANs by Constraining Information Flow

Xue Bin Peng, Angjoo Kanazawa|arXiv (Cornell University)|2018. 10. 01.

Adversarial Robustness in Machine Learning참고 문헌 40인용 수 101

한 줄 요약

변분적 판별기 병목(VDB)을 도입하여 정보 병목을 통해 판별기를 정규화하고, 적대적 학습의 안정성을 높이며 모방 학습, 역 RL, GAN에서 성능을 개선한다.

ABSTRACT

Adversarial learning methods have been proposed for a wide range of applications, but the training of adversarial models can be notoriously unstable. Effectively balancing the performance of the generator and discriminator is critical, since a discriminator that achieves very high accuracy will produce relatively uninformative gradients. In this work, we propose a simple and general technique to constrain information flow in the discriminator by means of an information bottleneck. By enforcing a constraint on the mutual information between the observations and the discriminator's internal representation, we can effectively modulate the discriminator's accuracy and maintain useful and informative gradients. We demonstrate that our proposed variational discriminator bottleneck (VDB) leads to significant improvements across three distinct application areas for adversarial learning algorithms. Our primary evaluation studies the applicability of the VDB to imitation learning of dynamic continuous control skills, such as running. We show that our method can learn such skills directly from \emph{raw} video demonstrations, substantially outperforming prior adversarial imitation learning methods. The VDB can also be combined with adversarial inverse reinforcement learning to learn parsimonious reward functions that can be transferred and re-optimized in new settings. Finally, we demonstrate that VDB can train GANs more effectively for image generation, improving upon a number of prior stabilization methods.

연구 동기 및 목표

정보 병목을 사용하여 판별기에서 정보 흐름을 제약함으로써 적대적 학습을 고무하고 안정화한다.
정보 기반의 기울기가 유지되도록 판별기의 정확도를 조절하는 실용적인 변분 경계 기반 방법(VDB)을 개발한다.
모션 모방(mocap/video)에서의 학습, 역 RL, 그리고 GAN 기반 이미지 생성을 포함한 세 영역에서 개선을 보여준다.

제안 방법

입력 x를 확률적 잠재 z ~ E(z|x)로 매핑하는 인코더 E를 도입한다.
prior r(z)를 사용한 KL 기반 상한을 통해 I(X;Z) ≤ Ic로 상호 정보 제약을 부과한다.
정보 예산을 적응적으로 시행하기 위해 이중 변수 β를 갖는 라그랑주안을 최적화한다(β는 이중 경사 하강법으로 업데이트된다).
판별자 D는 x가 아닌 E(z|x)에서 나온 샘플 z를 분류한다; 이진 진짜/가짜에 sigmoid를 사용하는 D(z)를 사용한다.
자연스러운 기대를 근사하기 위해 인코더 평균 μE(x)에서 D를 평가하는 단순화된 생성자 목적을 사용한다.
이 VDB 프레임워크를 GAIL(VAIL), VAIRL에 적용하고 픽셀 기반 비디오 시연에서의 모방으로 확장한다.

실험 결과

연구 질문

RQ1정보 병목을 통한 판별기의 정보 흐름 제약이 적대적 학습의 안정성과 기울기 품질을 개선하는가?
RQ2VDB가 시연(비디오를 포함한)에서의 모방 학습 및 적대적 IRL 설정에서 성능을 개선하는가?
RQ3VDB가 표준 안정화 방법을 넘어 GAN 기반 이미지 생성에 이익을 주는가?
RQ4β의 적응적 최적화가 학습 역학 및 최종 성능에 어떤 영향을 미치는가?
RQ5VDB를 VAIRL 및 관련 적대적 IRL 형식에 적용했을 때 얻는 이익은 무엇인가?

주요 결과

방법	백플립(라디안)	카트휠(라디안)	댄스(라디안)	런(라디안)	스핀킥(라디안)
BC	3.01	2.88	2.93	2.63	2.88
Merel et al., 2017	1.33±0.03	1.47±0.12	2.61±0.30	0.52±0.04	1.82±0.35
GAIL	0.74±0.15	0.84±0.05	1.31±0.16	0.17±0.03	1.07±0.03
GAIL - noise	0.42±0.02	0.92±0.07	0.96±0.08	0.21±0.05	0.95±0.14
GAIL - noise z	0.67±0.12	0.72±0.04	1.14±0.08	0.14±0.03	0.64±0.09
GAIL - GP	0.62±0.09	0.69±0.05	0.80±0.32	0.12±0.02	0.64±0.04
VAIL (ours)	0.36±0.13	0.40±0.08	0.40±0.21	0.13±0.01	0.34±0.05
VAIL - GP (ours)	0.46±0.17	0.31±0.02	0.15±0.01	0.10±0.01	0.31±0.02
Peng et al., 2018	0.26	0.21	0.20	0.14	0.19

VDB는 판별기의 의사결정 경계(t)를 매끄럽게 하고 정보적인 기울기를 제공하여 소실 기울기를 방지하고 학습을 향상시킨다.
VAIL(VDB를 적대적 모방 학습에 적용)은 모캡 및 비디오 시연에서 여러 스킬에 대해 GAIL 변형 및 BC보다 더 나은 모방 성능을 달성한다.
VDB가 적용된 VAIRL 및 VAIRL-GP 변형은 베이스라인 및 AIRL 변형과 비교해 이전에 비해 전이/보상 학습 성능이 경쟁력 있거나 우월하다.
비디오 모션 모방에서 이중 경사 하강법을 이용한 적응형 β는 정보 제약을 효과적으로 강제하고 최상의 전반적 성능을 제공한다.
이미지 생성에서 VDB 기반 GAN(VGAN)은 여러 기존 안정화 방식에 비해 안정성과 성능을 개선한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.