Skip to main content
QUICK REVIEW

[논문 리뷰] Deforming Autoencoders: Unsupervised Disentangling of Shape and Appearance

Zhixin Shu, Mihir Sahasrabudhe|arXiv (Cornell University)|2018. 06. 18.
Face recognition and analysis참고 문헌 39인용 수 89
한 줄 요약

논문은 Deforming Autoencoders를 통해 형태(변형)와 외관(텍스처)을 비지도 방식으로 분리하여 비지도 정렬, 형태/외관 보간, 그리고 고유 음영/알베도 분해를 가능하게 한다.

ABSTRACT

In this work we introduce Deforming Autoencoders, a generative model for images that disentangles shape from appearance in an unsupervised manner. As in the deformable template paradigm, shape is represented as a deformation between a canonical coordinate system (`template') and an observed image, while appearance is modeled in `canonical', template, coordinates, thus discarding variability due to deformations. We introduce novel techniques that allow this approach to be deployed in the setting of autoencoders and show that this method can be used for unsupervised group-wise image alignment. We show experiments with expression morphing in humans, hands, and digits, face manipulation, such as shape and appearance interpolation, as well as unsupervised landmark localization. A more powerful form of unsupervised disentangling becomes possible in template coordinates, allowing us to successfully decompose face images into shading and albedo, and further manipulate face images.

연구 동기 및 목표

  • 비지도 학습 없이 Deforming Autoencoder 패러다임으로 형태와 외관을 분리한다.
  • 이미지 생성을 공통 공간에서의 텍스처 합성으로 모델링하고 학습된 변형을 이미지 좌표에 적용한다.
  • 비지도 정렬, 형태/외관의 보간 및 고유 음영/재조명 분해를 가능하게 한다.
  • 훈련 및 결과를 개선하기 위해 클래스 인식 변형 모델링과 이형 변형 제약을 탐구한다.

제안 방법

  • 이미지를 Z로 인코딩하여 ZT(외관)와 ZS(형태)로 분리한다.
  • ZT와 ZS에서 외관 T와 변형 필드 W를 합성하기 위해 두 개의 디코더를 사용한 다음, 공간 변환 층을 통해 W로 T를 왜곡하여 이미지를 재구성한다.
  • Global 변형을 표현하는 affine ST 계층과 미분 디코더에서 공간 그래디언트 ∇xW와 ∇yW를 예측한 후 공간적 적분으로 W를 형성한다.
  • Deformation gradients에 ReLU(또는 HardTanh)를 적용하여 국지적으로 일관되고 비-뒤틀리는 변형을 강제하고 접힘을 방지한다.
  • 선택적으로 멀티-클래스 데이터에 대해 appearance과 shape 디코더를 조건화하기 위한 클래스-의존 잠재 구성요소 ZC를 포함한다.
  • Separate shading S와 albedo A 디코더를 가진 Intrinsic Deforming Autoencoder(Intrinsic-DAE)로 확장하여 텍스처를 T = S ∘ A로 모델링하고 ∇S 정규화를 통해 매끈한 음영을 강제한다; 필요에 따라 PatchGAN과 같은 적대적 손실을 사용해 현실감을 개선한다.
  • 재구성 손실과 함께 왜곡에 대한 규칙화 항(매끄러움 및 바이어스 감소)을 사용하고, 활성화 시 음영 및 적대적 손실을 포함한다.]
  • research_questions:[

실험 결과

연구 질문

  • RQ1형태와 외관을 deformation field와 canonical texture space를 명시적으로 모델링하여 비지도 오토인코더에서 분리할 수 있는가?
  • RQ2이성형적이고 규제된 deformation을 포함시키면 비지도 설정에서 이미지 정렬, 보간 품질, 랜드마크 위치 추정이 향상되는가?
  • RQ3클래스 정보를 도입하면 Deforming Autoencoder에서 다중 모드 appearance 모델링이 개선되는가?
  • RQ4이미지가 템플릿 공간에서 정렬될 때 intrinsic 분해(음영과 알베도)가 비지도학습으로 학습될 수 있는가?

주요 결과

  • DAE는 학습된 변형으로 왜곡된 공통 공간의 텍스처로 이미지를 재구성함으로써 형태와 외관을 효과적으로 분리한다.
  • 클래스 인식 Deforming Autoencoder는 다중 클래스 외관 모델링을 개선하고 더 선명한 이미지를 제공한다.
  • Intrinsic-DAE는 비지도 음영 및 알베도 분해를 달성하고 재조명/조명 변화의 시뮬레이션을 가능하게 한다.
  • 비지도 정렬이 가능하며 자기-감독 방법과 비교해도 경쟁적인 랜드마크 위치 추정 정확도를 달성한다.
  • 변형 필드 학습은 비지도 랜드마크 검출 및 이미지 정합 작업의 성능 향상으로 이어진다.
  • 적대적 학습은 Intrinsic-DAE의 시각적 선명도를 높이되 변형, 음영, 알베도 간의 분리를 해치지 않는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.