Skip to main content
QUICK REVIEW

[논문 리뷰] Unsupervised Learning of Object Landmarks through Conditional Image Generation

Tomáš Jakab, Ankush Gupta|arXiv (Cornell University)|2018. 06. 20.
Face recognition and analysis인용 수 104
한 줄 요약

본 논문은 두 이미지(소스 및 타깃)를 조건으로 이미지 생성을 수행하고 기하학적 병목을 강제하여 안정적인 키포인트를 생성함으로써 감독 없이 랜드마크 검출기를 학습하고, 얼굴, 몸체 및 3D 객체에서 강력한 비지도 랜드마크 검출을 달성한다.

ABSTRACT

We propose a method for learning landmark detectors for visual objects (such as the eyes and the nose in a face) without any manual supervision. We cast this as the problem of generating images that combine the appearance of the object as seen in a first example image with the geometry of the object as seen in a second example image, where the two examples differ by a viewpoint change and/or an object deformation. In order to factorize appearance and geometry, we introduce a tight bottleneck in the geometry-extraction process that selects and distils geometry-related features. Compared to standard image generation problems, which often use generative adversarial networks, our generation task is conditioned on both appearance and geometry and thus is significantly less ambiguous, to the point that adopting a simple perceptual loss formulation is sufficient. We demonstrate that our approach can learn object landmarks from synthetic image deformations or videos, all without manual supervision, while outperforming state-of-the-art unsupervised landmark detectors. We further show that our method is applicable to a large variety of datasets - faces, people, 3D objects, and digits - without any modifications.

연구 동기 및 목표

  • 변형 가능한 객체 범주(얼굴, 몸체, 3D 객체)에 대한 수동 주석 없이 랜드마크 검출을 동기화한다.
  • appearance와 geometry를 분리하는 조건부 이미지 생성 프레임워크를 제안하여 랜드마크 표현을 유도한다.
  • 좁은 기하학 병목이 다양한 데이터셋에서 의미론적으로 의미 있는 랜드마크를 생성하는지 Demonstrate 한다.
  • 적대적 학습 없이도 고품질 재구성을 위한 지각 손실이 충분하다는 것을 보여준다.
  • 학습된 랜드마크의 일반성 및 강건성을 확인하기 위해 다수의 데이터셋에서 평가한다.

제안 방법

  • 타깃 이미지를 소스 이미지와 요약된 기하학 표현으로 재구성하는 두 이미지 조건 생성기를 도입한다.
  • 타깃 이미지에서 K개의 공간적 히트맵을 출력하고 이를 소프트하게 주변화하여 랜드마크 좌표를 생성하는 히트맵 병목 Phi를 사용한다.
  • 히트맵을 가우시안 유사 랜드마크 표현으로 변환하여 생성기에 입력한다.
  • 실제 타깃과 생성된 타깃 사이의 지각 재구성 손실을 최소화하여 Phi와 이미지 생성기 Psi를 함께 학습한다.
  • 효율성을 위한 분리 가능한 구현을 채택하고, 재구성을 안내하기 위한 사전 학습된 네트워크(VGG-19 등)를 기반으로 한 지각 손실을 활용한다.
  • 일치관계나 광류 없이도 합성 변형 및 원시 비디오 데이터에서 모델이 학습될 수 있음을 입증한다.

실험 결과

연구 질문

  • RQ1조건부 이미지 생성을 기하학에 집중시키도록 제약함으로써 비지도 랜드마크 검출기를 학습할 수 있는가?
  • RQ2감독 없이도 얼굴, 인간 몸체, 3D 객체에서 학습된 랜드마크가 얼마나 잘 일반화되는가?
  • RQ3정보 흐름을 랜드마크 유사 병목으로 제한하면 차원 저하된 해법과 의미 있는 기하학 인코딩이 가능해지는가?
  • RQ4두 이미지 조건부 생성 설정에서 지각 손실이 고품질 재구성에 충분한가?

주요 결과

  • 조건부 생성 프레임워크를 통해 학습된 비지도 랜드마크가 변형 및 신원 변경에도 의미론적으로 의미 있는 얼굴 및 신체 특징을 추적한다.
  • 이 방법은 MAFL 및 AFLW에서 감독 및 기존 비지도 방법과 비교하여 경쟁력 있는 또는 우수한 랜드마크 검출 성능을 보이며, 샘플 효율성 측면에서 눈에 띄는 향상을 보여준다.
  • 셀프-supervised 지각 손실과 30개의 비지도 랜드마크를 사용하여 5개의 수동 라벨이 있는 랜드마크로 회귀하면 CelebA에서 MAFL(정규화된 MSE 2.58%), AFLW(정규화된 MSE 6.31%)에서 강한 정확도를 달성하며, VoxCeleb 데이터는 도메인 차이가 존재하나 견고성을 보인다.
  • 이 접근법은 얼굴, 인간, 3D 객체, 숫자 등 다양한 데이터 유형에 대해 작업 특성 수정 없이 랜드마크 학습을 지원한다.
  • 키포인트 병목 제거나 픽셀 기반 손실로의 전환이 랜드마크 품질을 저하시키고, 이 설정에서 지각 손실이 L1/L2보다 우월하며 적대적 항 없이도 더 우수하다는 것을 보여주는 분석이 수행된다.
  • Appearance와 geometry의 해리가 나타나며, 소스 이미지는 스타일을, 타깃 이미지는 기하를 생성된 출력에 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.