QUICK REVIEW

[논문 리뷰] Disentangled Recurrent Wasserstein Autoencoder

Jun Han, Martin Renqiang Min|arXiv (Cornell University)|2021. 05. 03.

Generative Adversarial Networks and Image Synthesis참고 문헌 53인용 수 2

한 줄 요약

이 논문은 워샤르슈타인 GAN 기반의 목적함수를 사용하여 순차적 데이터를 시간에 따라 변하지 않는(정적) 요소와 시간에 따라 변하는(동적) 요소로 분리하는 생성 모델인 순환 워샤르슈타인 오토인코더(R-WAE)를 제안한다. 벌금 주입된 워샤르슈타인 거리 상한을 최소화하고 입력 데이터와 분리된 요소 간의 상호정보를 최대화함으로써, 정량적 및 정성적 평가 지표에서 기존 모델들을 능가하는 분리도와 비디오 생성 품질을 향상시킨다.

ABSTRACT

Learning disentangled representations leads to interpretable models and facilitates data generation with style transfer, which has been extensively studied on static data such as images in an unsupervised learning framework. However, only a few works have explored unsupervised disentangled sequential representation learning due to challenges of generating sequential data. In this paper, we propose recurrent Wasserstein Autoencoder (R-WAE), a new framework for generative modeling of sequential data. R-WAE disentangles the representation of an input sequence into static and dynamic factors (i.e., time-invariant and time-varying parts). Our theoretical analysis shows that, R-WAE minimizes an upper bound of a penalized form of the Wasserstein distance between model distribution and sequential data distribution, and simultaneously maximizes the mutual information between input data and different disentangled latent factors, respectively. This is superior to (recurrent) VAE which does not explicitly enforce mutual information maximization between input data and disentangled latent representations. When the number of actions in sequential data is available as weak supervision information, R-WAE is extended to learn a categorical latent representation of actions to improve its disentanglement. Experiments on a variety of datasets show that our models outperform other baselines with the same settings in terms of disentanglement and unconditional video generation both quantitatively and qualitatively.

연구 동기 및 목표

정적 데이터(예: 이미지)에 비해 아직 탐색이 부족한 순차적 데이터에서의 비지도 분리 표현 학습 도전 과제를 해결하기 위해.
순차적 시퀀스에서 정적(시간에 따라 변하지 않는) 요소와 동적(시간에 따라 변하는) 요소를 명시적으로 분리하는 생성 모델을 개발하기 위해.
입력 데이터와 잠재 요소 간의 상호정보를 최대화하고, 벌금 주입된 워샤르슈타인 거리의 상한을 동시에 최소화하여 분리도와 생성 품질을 향상시키기 위해.
행동 횟수에 기반한 약한 지도를 도입하여 분류 잠재 행동 표현을 통해 동적 요소의 분리도를 더욱 향상시키기 위해.

제안 방법

공유 인코더와 두 개의 별도 잠재 공간을 사용하여 정적 및 동적 구성요소를 분리하는 순환 아키텍처를 제안하여 순차적 입력을 분리된 잠재 코드로 매핑한다.
모델이 생성한 분포와 진짜 데이터 분포 사이의 벌금 주입된 워샤르슈타인 거리 상한을 최소화하기 위해 워샤르슈타인 GAN 기반의 목적함수를 적용한다.
표현 품질 향상과 분리도 향상을 위해 입력 시퀀스와 분리된 잠재 요소 간의 상호정보 최대화 목적함수를 도입한다.
행동 횟수에 기반한 약한 지도를 도입하여 행동의 분류 잠재 표현을 학습함으로써 동적 요소의 분리도를 향상시킨다.
제안된 목적함수 하에서 엔드 투 엔드 훈련이 가능하도록 사후 근사(approximation)를 사용하는 변분 추론 프레임워크를 적용한다.
WGAN-GP와 동일하게 기울기 페널티를 적용하여 훈련을 안정화시키고, 판별기의 1-립시츠 조건을 유지한다.

실험 결과

연구 질문

RQ1비지도 학습 하에서 순환 오토인코더 아키텍처가 순차적 데이터의 정적 및 동적 요소를 효과적으로 분리할 수 있는가?
RQ2벌금 주입된 워샤르슈타인 거리 상한을 최소화하는 것이 표준 VAE에 비해 순차적 데이터 생성 품질을 향상시키는가?
RQ3입력 시퀀스와 분리된 잠재 요소 간의 상호정보를 최대화함으로써 분리도와 생성 성능 향상 정도는 어느 정도인가?
RQ4행동 횟수에 기반한 약한 지도가 순차적 표현의 분리도를 추가로 향상시킬 수 있는가?
RQ5기존 베이스라인에 비해 제안된 R-WAE 모델은 분리도와 무조건적 비디오 생성 품질 측면에서 어떻게 비교되는가?

주요 결과

R-WAE 모델은 MIG 및 dci 점수와 같은 정량적 지표로 측정했을 때, 여러 순차적 데이터셋에서 기존 모델들보다 뛰어난 분리도 성능을 달성한다.
무조건적 생성 작업에서 R-WAE는 표준 R-VAE 및 기타 베이스라인에 비해 시각적 품질과 시간적 일관성이 향상된 더 높은 품질의 비디오 샘플을 생성한다.
상호정보 최대화를 통합함으로써 분리도가 크게 향상되었으며, 정적 및 동적 요소에 대해 더 의미 있고 독립적인 표현을 학습하는 데 기여한다.
행동 횟수 지도 정보가 제공될 경우, 모델은 행동에 대해 더 체계적인 분류 잠재 표현을 학습하여 동적 구성요소의 분리도를 더욱 향상시킨다.
이론적 분석을 통해 R-WAE가 벌금 주입된 워샤르슈타인 거리 상한을 최소화함을 확인하였으며, 이는 순차적 생성을 위한 타당한 최적화 목적함수를 제공한다.
실험 결과는 정량적 평가와 정성적 인간 평가 모두에서 일관된 향상이 나타나 모델의 강건성과 일반화 능력을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.