QUICK REVIEW

[논문 리뷰] Disentangled Sequential Autoencoder

Yingzhen Li, Stephan Mandt|arXiv (Cornell University)|2018. 03. 08.

Generative Adversarial Networks and Image Synthesis인용 수 92

한 줄 요약

시간-불변 콘텐츠를 시간-변하는 다이나믹스로 분리하여 시퀀스를 위한 해석 가능한 표현을 학습하는 변분 오토인코더로, 비디오와 오디오의 제어된 생성 및 특징 교환을 가능하게 한다.

ABSTRACT

We present a VAE architecture for encoding and generating high dimensional sequential data, such as video or audio. Our deep generative model learns a latent representation of the data which is split into a static and dynamic part, allowing us to approximately disentangle latent time-dependent features (dynamics) from features which are preserved over time (content). This architecture gives us partial control over generating content and dynamics by conditioning on either one of these sets of features. In our experiments on artificially generated cartoon video clips and voice recordings, we show that we can convert the content of a given sequence into another one by such content swapping. For audio, this allows us to convert a male speaker into a female speaker and vice versa, while for video we can separately manipulate shapes and dynamics. Furthermore, we give empirical evidence for the hypothesis that stochastic RNNs as latent state models are more efficient at compressing and generating long sequences than deterministic ones, which may be relevant for applications in video compression.

연구 동기 및 목표

고차원 시퀀스 데이터(비디오/오디오)에 대해 disentangled 표현 학습의 동기를 제시한다.
시간-불변 콘텐츠를 시간-변하는 다이나믹스로 분리하는 생성 모델을 제안한다.
콘텐츠나 다이나믹스를 제어하여 시퀀스 생성을 가능하게 하고 특징 교환(콘텐츠 또는 다이나믹스)을 지원한다.
확률적 잠재 다이나믹스가 장기 시퀀스 모델링 및 압축을 개선한다는 실증적 증거를 제공한다.
감독 없이 비디오 및 음성 데이터에 대한 응용 가능성을 보여준다.

제안 방법

글로벌 콘텐츠 잠재 변수 f와 프레임별 다이내믹 잠재 변수 z_t를 갖는 VAE 기반 생성 모델을 제안한다.
p_theta(x_{1:T}, z_{1:T}, f) = p(f) prod_t p(z_t|z_{<t}) p(x_t|z_t, f) 를 정의한다.
q(z_{1:T}, f|x_{1:T})를 근사하기 위해 두 가지 인코더 설계: factorised q와 full q를 활용한 암묵적 변분 추정을 사용한다.
생성 조건화를 f 또는 z_{1:T} 중 하나에 따라 콘텐츠-다이나믹스 분리를 탐구하고 시퀀스 간 특징 교환을 수행한다.
무조건적 생성과 콘텐츠 교환(예: 음성 변환, 신원 대 포즈)을 포함한 조건부 생성을 시연한다.
장기 시퀀스 생성을 위해 확률적 잠재 다이내믹스와 결정적 RNN 기반 다이내믹스를 비교한다.

실험 결과

연구 질문

RQ1잠재 변수 모델이 시간에 따라 일정한 콘텐츠를 시간에 따라 변하는 다이나믹스에서 해리될 수 있는가?
RQ2콘텐츠나 다이나믹스에 조건화하는 것이 비디오와 오디오에서 제어된 생성 및 특징 교환을 가능하게 하는가?
RQ3확률적 프레임별 잠재 다이내믹스가 결정적 다이내믹스에 비해 장기 시퀀스 재구성 및 현실성을 향상시키는가?
RQ4학습된 콘텐츠 요인 f가 시퀀스 전반에서 강건한 화자/정체성 표현으로 작용하는가?
RQ5Explicit 레이블 없이 비디오 및 음성 데이터에서의 무감독 disentanglement 성능은 어떠한가?

주요 결과

모델은 콘텐츠와 다이나믹스를 교환할 수 있어 생성 시퀀스의 정체성과 움직임에 대한 제어를 가능하게 한다.
고정된 콘텐츠를 샘플링할 때 정체성 같은 정적 속성이 시간에 걸쳐 보존되는 반면 다이나믹스는 독립적으로 달라질 수 있다.
시퀀스 간 f를 교환하면 다이나믹스를 유지하면서 콘텐츠가 교환된 새로운 시퀀스를 생성할 수 있고 그 반대도 가능하다.
Sprite 비디오 데이터에서 이 접근법은 머리카락 색상과 의상과 같은 정적 속성을 시간에 따라 유지하면서도 다양한 행동을 허용한다; 행동 궤적은 다중 모달성과 보지 못한 사례에 대한 일반화를 보여준다.
TIMIT 음성 데이터에서 모델은 콘텐츠 잠재를 교환하여 화자 변경에 해당하는 스펙트로그램의 고조파를 이동시키고 음성 변환을 가능하게 하며 경쟁력 있는 스피커 검증 성능을 달성한다.
Deterministic LSTM 기반 다이내믹스와 비교할 때, 확률적 프레임별 잠재 다이내믹스는 긴 시퀀스에서 모양과 물리를 더 잘 보존하고, 프레임이 누락되었을 때 재구성/예측 품질을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.