Skip to main content
QUICK REVIEW

[논문 리뷰] Learning Disentangled Representations of Videos with Missing Data

Armand Comas, Chi Zhang|arXiv (Cornell University)|2020. 01. 01.
Human Pose and Action Recognition인용 수 7
한 줄 요약

DIVE는 누락된 프레임을 보간하고 미래 프레임을 예측함으로써 별개의 잠재 공간을 사용해 외관, 자세, 운동 및 누락성 요인을 분리하는 딥 생성 모델이다. 이 모델은 누락 데이터가 있는 합성 및 실세계 비디오 데이터셋에서 최신 기술을 크게 능가한다.

ABSTRACT

Missing data poses significant challenges while learning representations of video sequences. We present Disentangled Imputed Video autoEncoder (DIVE), a deep generative model that imputes and predicts future video frames in the presence of missing data. Specifically, DIVE introduces a missingness latent variable, disentangles the hidden video representations into static and dynamic appearance, pose, and missingness factors for each object. DIVE imputes each object's trajectory where data is missing. On a moving MNIST dataset with various missing scenarios, DIVE outperforms the state of the art baselines by a substantial margin. We also present comparisons for real-world MOTSChallenge pedestrian dataset, which demonstrates the practical value of our method in a more realistic setting. Our code and data can be found at this https URL.

연구 동기 및 목표

  • 데이터가 누락되거나 불완전할 때 비디오 표현을 학습하는 데 도전하는 것.
  • 모델 향상을 위해 비디오 요소를 정적 외관, 동적 자세, 운동, 누락성 구성 요소로 분리하는 것.
  • 통합된 프레임워크에서 누락된 프레임을 보간하고 미래 프레임을 예측할 수 있는 생성 모델을 개발하는 것.
  • 실제로 존재하는 누락 데이터 패턴을 가진 합성 및 실세계 비디오 데이터셋에서 방법을 평가하는 것.
  • 자료 부족 상황에서 별개 표현 학습의 실용적 유용성을 비디오 복원에 보여주는 것.

제안 방법

  • DIVE는 비디오 시퀀스에서 누락된 데이터의 존재 및 위치를 명시적으로 모델링하기 위해 누락성 잠재 변수를 도입한다.
  • 모델은 각 객체에 대해 정적 외관, 동적 자세, 운동, 누락성을 별개의 요소로 분리한 숨겨진 표현을 사용한다.
  • 변분 오토인코더 아키텍처를 사용하고 조건부 디코더를 적용하여 별개의 요소 기반으로 프레임을 재구성하고 예측한다.
  • 재구성 손실과 미래 예측 손실을 동시에 최적화함으로써 보간 및 예측을 위한 엔드 투 엔드 학습이 가능하다.
  • 별개의 요소는 모든 프레임 간에 공유되며, 이는 관측이 누락된 경우에도 일관된 궤적 보간을 가능하게 한다.
  • 모델은 랜덤, 순차적, 객체 기반 가림 등 다양한 누락 데이터 패턴을 가진 비디오 시퀀스에서 훈련된다.

실험 결과

연구 질문

  • RQ1딥 생성 모델이 운동과 외관 일관성을 유지하면서도 비디오 시퀀스에서 누락된 프레임을 효과적으로 보간할 수 있는가?
  • RQ2외관, 자세, 운동, 누락성 요소를 분리함으로써 표현 품질과 재구성 정확도가 어느 정도 향상되는가?
  • RQ3복잡한 누락 패턴을 가진 실세계 비디오 데이터에 대해 모델이 얼마나 잘 일반화되는가?
  • RQ4별개 표현이 분리되지 않은 엔드 투 엔드 모델보다 미래 프레임 예측 성능을 더 잘 향상시키는가?
  • RQ5누락성 요소를 잠재 변수로 명시적으로 모델링함으로써 보간 및 예측 성능에 어떤 영향을 미치는가?

주요 결과

  • DIVE는 다양한 누락 데이터 시나리오가 존재하는 움직이는 MNIST 데이터셋에서 최신 기술 기준을 크게 앞서는 뛰어난 성능을 달성한다.
  • 모델은 별개의 운동 및 자세 요소를 통해 일관된 객체 궤적을 학습함으로써 누락된 프레임을 효과적으로 재구성한다.
  • 실세계 MOTSChallenge 보행자 데이터셋에서 DIVE는 현실적인 누락 데이터 패턴을 다루는 데 실용적 가치를 보여준다.
  • 별개 표현은 큰 부분이 누락된 비디오에서도 정확한 보간과 미래 프레임 예측을 가능하게 한다.
  • 누락성 요소를 잠재 변수로 명시적으로 모델링함으로써, 누락 데이터를 무시하거나 마스크 처리하는 모델보다 재구성 및 예측 성능이 향상된다.
  • 제거 실험을 통해 외관, 자세, 운동, 누락성 요소를 분리하는 것이 더 견고하고 일반화 능력이 뛰어난 비디오 표현을 만든다는 것이 확인되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.