QUICK REVIEW

[논문 리뷰] Learning Disentangled Representations of Videos with Missing Data

Armand Comas, Chi Zhang|arXiv (Cornell University)|2020. 01. 01.

Human Pose and Action Recognition인용 수 7

한 줄 요약

DIVE는 누락된 프레임을 보간하고 미래 프레임을 예측함으로써 별개의 잠재 공간을 사용해 외관, 자세, 운동 및 누락성 요인을 분리하는 딥 생성 모델이다. 이 모델은 누락 데이터가 있는 합성 및 실세계 비디오 데이터셋에서 최신 기술을 크게 능가한다.

ABSTRACT

Missing data poses significant challenges while learning representations of video sequences. We present Disentangled Imputed Video autoEncoder (DIVE), a deep generative model that imputes and predicts future video frames in the presence of missing data. Specifically, DIVE introduces a missingness latent variable, disentangles the hidden video representations into static and dynamic appearance, pose, and missingness factors for each object. DIVE imputes each object's trajectory where data is missing. On a moving MNIST dataset with various missing scenarios, DIVE outperforms the state of the art baselines by a substantial margin. We also present comparisons for real-world MOTSChallenge pedestrian dataset, which demonstrates the practical value of our method in a more realistic setting. Our code and data can be found at this https URL.

연구 동기 및 목표

데이터가 누락되거나 불완전할 때 비디오 표현을 학습하는 데 도전하는 것.
모델 향상을 위해 비디오 요소를 정적 외관, 동적 자세, 운동, 누락성 구성 요소로 분리하는 것.
통합된 프레임워크에서 누락된 프레임을 보간하고 미래 프레임을 예측할 수 있는 생성 모델을 개발하는 것.
실제로 존재하는 누락 데이터 패턴을 가진 합성 및 실세계 비디오 데이터셋에서 방법을 평가하는 것.
자료 부족 상황에서 별개 표현 학습의 실용적 유용성을 비디오 복원에 보여주는 것.

제안 방법

DIVE는 비디오 시퀀스에서 누락된 데이터의 존재 및 위치를 명시적으로 모델링하기 위해 누락성 잠재 변수를 도입한다.
모델은 각 객체에 대해 정적 외관, 동적 자세, 운동, 누락성을 별개의 요소로 분리한 숨겨진 표현을 사용한다.
변분 오토인코더 아키텍처를 사용하고 조건부 디코더를 적용하여 별개의 요소 기반으로 프레임을 재구성하고 예측한다.
재구성 손실과 미래 예측 손실을 동시에 최적화함으로써 보간 및 예측을 위한 엔드 투 엔드 학습이 가능하다.
별개의 요소는 모든 프레임 간에 공유되며, 이는 관측이 누락된 경우에도 일관된 궤적 보간을 가능하게 한다.
모델은 랜덤, 순차적, 객체 기반 가림 등 다양한 누락 데이터 패턴을 가진 비디오 시퀀스에서 훈련된다.

실험 결과

연구 질문

RQ1딥 생성 모델이 운동과 외관 일관성을 유지하면서도 비디오 시퀀스에서 누락된 프레임을 효과적으로 보간할 수 있는가?
RQ2외관, 자세, 운동, 누락성 요소를 분리함으로써 표현 품질과 재구성 정확도가 어느 정도 향상되는가?
RQ3복잡한 누락 패턴을 가진 실세계 비디오 데이터에 대해 모델이 얼마나 잘 일반화되는가?
RQ4별개 표현이 분리되지 않은 엔드 투 엔드 모델보다 미래 프레임 예측 성능을 더 잘 향상시키는가?
RQ5누락성 요소를 잠재 변수로 명시적으로 모델링함으로써 보간 및 예측 성능에 어떤 영향을 미치는가?

주요 결과

DIVE는 다양한 누락 데이터 시나리오가 존재하는 움직이는 MNIST 데이터셋에서 최신 기술 기준을 크게 앞서는 뛰어난 성능을 달성한다.
모델은 별개의 운동 및 자세 요소를 통해 일관된 객체 궤적을 학습함으로써 누락된 프레임을 효과적으로 재구성한다.
실세계 MOTSChallenge 보행자 데이터셋에서 DIVE는 현실적인 누락 데이터 패턴을 다루는 데 실용적 가치를 보여준다.
별개 표현은 큰 부분이 누락된 비디오에서도 정확한 보간과 미래 프레임 예측을 가능하게 한다.
누락성 요소를 잠재 변수로 명시적으로 모델링함으로써, 누락 데이터를 무시하거나 마스크 처리하는 모델보다 재구성 및 예측 성능이 향상된다.
제거 실험을 통해 외관, 자세, 운동, 누락성 요소를 분리하는 것이 더 견고하고 일반화 능력이 뛰어난 비디오 표현을 만든다는 것이 확인되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.