[논문 리뷰] DGPose: Disentangled Semi-supervised Deep Generative Models for Human Body Analysis.
DGPose는 인간 신체 분석을 위한 분리된 준지도 학습 변동형 오토인코더를 제안하며, 잠재 공간에서 자세와 외형을 분리하여, 특별한 훈련 없이도 자세 추정과 전이를 가능하게 한다. 이 모델은 레이블이 부족한 데이터에 의존도를 줄이며 Human3.6M 및 ChictopiaPlus에서 뛰어난 성능을 달성한다.
Deep generative modelling for robust human body analysis is an emerging problem with many interesting applications, since it enables analysis-by-synthesis and unsupervised learning. However, the latent space learned by such models is typically not human-interpretable, resulting in less flexible models. In this work, we adopt a structured semi-supervised variational auto-encoder approach and present a deep generative model for human body analysis where the pose and appearance are disentangled in the latent space, allowing for pose estimation. Such a disentanglement allows independent manipulation of pose and appearance and hence enables applications such as pose-transfer without being explicitly trained for such a task. In addition, the ability to train in a semi-supervised setting relaxes the need for labelled data. We demonstrate the merits of our generative model on the Human3.6M and ChictopiaPlus datasets.
연구 동기 및 목표
- 인간 신체 분석을 위한 딥 제너레이티브 모델의 잠재 공간에서의 해석 불가능성 문제를 해결하기 위해.
- 준지도 학습 환경에서 자세와 외형의 분리된 표현 학습을 가능하게 하기 위해.
- 태스크에 특화된 미세조정 없이도 자세 추정과 자세 전이를 지원하기 위해.
- 약한 지도 학습 및 비라벨 데이터를 활용하여 대규모 레이블링된 데이터셋에 대한 의존도를 줄이기 위해.
제안 방법
- 잠재 공간에서 자세와 외형의 분리된 표현을 동시에 모델링하기 위해 구조적 준지도 학습 변동형 오토인코더(ssVAE)를 채택한다.
- 구조적 추론을 사용하여 자세와 외형 요소를 명시적으로 분리한 분리된 잠재 공간을 도입한다.
- 약한 지도 학습 기반의 관건점 레이블과 대량의 비라벨 이미지를 활용하여 모델을 훈련시킨다.
- 자세와 외형을 독립적으로 모델링하기 위해 계층적 잠재 구조를 사용하여 제어 가능한 생성 및 조작을 가능하게 한다.
- 생성 품질 향상과 분리도 향상을 위해 적대적 훈련과 재구성 손실을 활용한다.
- 관건점 지도 정보를 조건으로 하는 추론 네트워크를 적용하여 분리된 표현 학습을 유도한다.
실험 결과
연구 질문
- RQ1딥 제너레이티브 모델은 인간 신체 표현에서 자세와 외형을 분리하는 잠재 공간을 학습할 수 있는가?
- RQ2이러한 모델은 이에 대한 명시적 훈련 없이도 자세 추정 성능을 얼마나 잘 달성할 수 있는가?
- RQ3준지도 학습은 인간 신체 분석에서 대규모 레이블링된 데이터의 필요성을 얼마나 줄일 수 있는가?
- RQ4모델은 재학습 없이도 신원 간에 제로샷 자세 전이를 가능하게 할 수 있는가?
주요 결과
- 분리된 잠재 공간 덕분에 자세와 외형을 독립적으로 조작할 수 있으며, 재학습 없이도 자세 전이가 가능해진다.
- 모델은 오직 약한 지도 학습과 비라벨 데이터만을 사용하여 Human3.6M에서 경쟁적인 자세 추정 성능를 달성한다.
- 준지도 학습 훈련은 높은 생성 품질을 유지하면서도 완전히 레이블링된 데이터의 필요성을 크게 줄인다.
- 모델은 예측되지 않은 신원과 자세로도 잘 일반화되어 제로샷 전이 능력을 보여준다.
- ChictopiaPlus에서의 정량적 결과는 기준 VAE보다 더 뛰어난 분리도와 재구성 정확도를 보였다.
- 이 방법은 제어 가능한 자세와 외형 특성을 가진 다양한 실제적인 인간 신체 이미지를 합성할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.