Skip to main content
QUICK REVIEW

[논문 리뷰] DGPose: Disentangled Semi-supervised Deep Generative Models for Human Body Analysis.

Rodrigo de, Arnab Ghosh|arXiv (Cornell University)|2018. 04. 17.
Human Pose and Action Recognition참고 문헌 39인용 수 6
한 줄 요약

DGPose는 인간 신체 분석을 위한 분리된 준지도 학습 변동형 오토인코더를 제안하며, 잠재 공간에서 자세와 외형을 분리하여, 특별한 훈련 없이도 자세 추정과 전이를 가능하게 한다. 이 모델은 레이블이 부족한 데이터에 의존도를 줄이며 Human3.6M 및 ChictopiaPlus에서 뛰어난 성능을 달성한다.

ABSTRACT

Deep generative modelling for robust human body analysis is an emerging problem with many interesting applications, since it enables analysis-by-synthesis and unsupervised learning. However, the latent space learned by such models is typically not human-interpretable, resulting in less flexible models. In this work, we adopt a structured semi-supervised variational auto-encoder approach and present a deep generative model for human body analysis where the pose and appearance are disentangled in the latent space, allowing for pose estimation. Such a disentanglement allows independent manipulation of pose and appearance and hence enables applications such as pose-transfer without being explicitly trained for such a task. In addition, the ability to train in a semi-supervised setting relaxes the need for labelled data. We demonstrate the merits of our generative model on the Human3.6M and ChictopiaPlus datasets.

연구 동기 및 목표

  • 인간 신체 분석을 위한 딥 제너레이티브 모델의 잠재 공간에서의 해석 불가능성 문제를 해결하기 위해.
  • 준지도 학습 환경에서 자세와 외형의 분리된 표현 학습을 가능하게 하기 위해.
  • 태스크에 특화된 미세조정 없이도 자세 추정과 자세 전이를 지원하기 위해.
  • 약한 지도 학습 및 비라벨 데이터를 활용하여 대규모 레이블링된 데이터셋에 대한 의존도를 줄이기 위해.

제안 방법

  • 잠재 공간에서 자세와 외형의 분리된 표현을 동시에 모델링하기 위해 구조적 준지도 학습 변동형 오토인코더(ssVAE)를 채택한다.
  • 구조적 추론을 사용하여 자세와 외형 요소를 명시적으로 분리한 분리된 잠재 공간을 도입한다.
  • 약한 지도 학습 기반의 관건점 레이블과 대량의 비라벨 이미지를 활용하여 모델을 훈련시킨다.
  • 자세와 외형을 독립적으로 모델링하기 위해 계층적 잠재 구조를 사용하여 제어 가능한 생성 및 조작을 가능하게 한다.
  • 생성 품질 향상과 분리도 향상을 위해 적대적 훈련과 재구성 손실을 활용한다.
  • 관건점 지도 정보를 조건으로 하는 추론 네트워크를 적용하여 분리된 표현 학습을 유도한다.

실험 결과

연구 질문

  • RQ1딥 제너레이티브 모델은 인간 신체 표현에서 자세와 외형을 분리하는 잠재 공간을 학습할 수 있는가?
  • RQ2이러한 모델은 이에 대한 명시적 훈련 없이도 자세 추정 성능을 얼마나 잘 달성할 수 있는가?
  • RQ3준지도 학습은 인간 신체 분석에서 대규모 레이블링된 데이터의 필요성을 얼마나 줄일 수 있는가?
  • RQ4모델은 재학습 없이도 신원 간에 제로샷 자세 전이를 가능하게 할 수 있는가?

주요 결과

  • 분리된 잠재 공간 덕분에 자세와 외형을 독립적으로 조작할 수 있으며, 재학습 없이도 자세 전이가 가능해진다.
  • 모델은 오직 약한 지도 학습과 비라벨 데이터만을 사용하여 Human3.6M에서 경쟁적인 자세 추정 성능를 달성한다.
  • 준지도 학습 훈련은 높은 생성 품질을 유지하면서도 완전히 레이블링된 데이터의 필요성을 크게 줄인다.
  • 모델은 예측되지 않은 신원과 자세로도 잘 일반화되어 제로샷 전이 능력을 보여준다.
  • ChictopiaPlus에서의 정량적 결과는 기준 VAE보다 더 뛰어난 분리도와 재구성 정확도를 보였다.
  • 이 방법은 제어 가능한 자세와 외형 특성을 가진 다양한 실제적인 인간 신체 이미지를 합성할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.