Skip to main content
QUICK REVIEW

[논문 리뷰] Adversarial Inversion: Inverse Graphics with Adversarial Priors

Hsiao-Yu Fish Tung, Adam W. Harley|arXiv (Cornell University)|2017. 05. 31.
Face recognition and analysis참고 문헌 2인용 수 10
한 줄 요약

이 논문은 비쌍표본 또는 편향된 데이터로부터 역영상학을 학습하기 위해 가시화 가능한 렌더링과 적대적 분포 매칭을 조합한 약한 지도 학습 프레임워크인 적대적 역영상학 네트워크(AIGNs)를 제안한다. 입력 관측치와 알려진 사전 지식 양쪽에 예측을 정렬함으로써, AIGNs는 3차원 인간 자세 및 구조 추정에서 완전 지도 학습 모델을 능가하며, 학습된 편향을 통한 제어 가능한 얼굴 이미지 조작을 가능하게 한다.

ABSTRACT

Researchers have developed excellent feed-forward models that learn to map images to desired outputs, such as to the images' latent factors, or to other images, using supervised learning. Learning such mappings from unlabelled data, or improving upon supervised models by exploiting unlabelled data, remains elusive. We argue that there are two important parts to learning without annotations: (i) matching the predictions to the input observations, and (ii) matching the predictions to known priors. We propose Adversarial Inverse Graphics networks (AIGNs): weakly supervised neural network models that combine feedback from rendering their predictions, with distribution matching between their predictions and a collection of ground-truth factors. We apply AIGNs to 3D human pose estimation and 3D structure and egomotion estimation, and outperform models supervised by only paired annotations. We further apply AIGNs to facial image transformation using super-resolution and inpainting renderers, while deliberately adding biases in the ground-truth datasets. Our model seamlessly incorporates such biases, rendering input faces towards young, old, feminine, masculine or Tom Cruise-like equivalents (depending on the chosen bias), or adding lip and nose augmentations while inpainting concealed lips and noses.

연구 동기 및 목표

  • 쌍표본이 없는 데이터를 활용하여 지도 학습이 불가능한 역영상학 학습 문제를 해결하기 위해 비라벨 데이터를 활용한다.
  • 사전 지식과 재구성 피드백을 통해 비라벨 데이터를 통합함으로써 지도 학습 모델의 성능을 향상시킨다.
  • 추론 과정에 편향을 통합함으로써 제어 가능한 이미지 생성 및 조작을 가능하게 한다.
  • 렌더링 피드백과 분포 매칭을 조합한 약한 지도 학습 프레임워크를 개발하여 예측에 기반을 두게 한다.

제안 방법

  • AIGNs는 입력 이미지에서 잠재 요소를 예측하는 생성망을 사용하며, 이를 다시 이미지 공간으로 렌더링한다.
  • 모델은 렌더링된 출력과 입력 이미지 간의 재구성 손실을 최소화함으로써 일관성을 강제한다.
  • 적대적 판별기는 예측된 요소가 비라벨 데이터의 실측 요소 분포와 일치하도록 보장한다.
  • 학습 목표는 픽셀 수준의 재구성 손실과 적대적 손실을 조합하여 예측을 관측치와 사전 지식 양쪽에 정렬한다.
  • 특정 속성(예: 연령, 성별, 얼굴 특징)의 사전 분포를 조건으로 하여 생성망을 설정함으로써 분리된 추론을 지원한다.
  • 추론 중에 사전 분포에 편향을 주입함으로써 제어 가능한 이미지 번역을 가능하게 한다. 예를 들어 얼굴을 더 어릴 것처럼, 또는 더 남성적으로 만드는 것 등.

실험 결과

연구 질문

  • RQ1재구성과 분포 매칭을 조합함으로써 쌍표본이 없거나 약한 레이블이 있는 데이터로부터 역영상학을 학습할 수 있는가?
  • RQ2적대적 사전 지식을 통합할 경우, 지도 학습 기반 모델 대비 3차원 인간 자세 및 구조 추정에서 일반화 성능이 어떻게 향상되는가?
  • RQ3AIGNs는 훈련 데이터로부터의 편향을 효과적으로 학습하고 얼굴 이미지 조작에서 제어 가능한 이미지 생성에 적용할 수 있는가?
  • RQ4쌍표본 지도 학습이 필요 없이 AIGNs는 다양한 역영상학 작업에 얼마나 잘 일반화되는가?
  • RQ5가시화 가능한 렌더링과 적대적 학습의 통합은 분리된 표현 학습을 어떻게 향상시키는가?

주요 결과

  • AIGNs는 쌍표본이 없는 데이터로 훈련되어도 3차원 인간 자세 추정 및 3차원 구조/자기운동 추정에서 완전 지도 학습 모델을 능가한다.
  • 모델은 훈련 데이터로부터의 편향을 성공적으로 통합하여, 나이 듦, 성별 전환, 또는 톰 크루즈 스타일의 얼굴 생성 등 제어 가능한 얼굴 이미지 번역을 가능하게 한다.
  • 예측된 요소의 분포를 실측 사전 지식과 매칭함으로써, AIGNs는 새로운 데이터에 대해 더 나은 일반화와 강건성을 달성한다.
  • 프레임워크는 제어 가능한 속성 증강(예: 가려진 영역에 입술이나 코 추가)을 통해 고해상도 복원 및 인painting을 높은 품질로 수행할 수 있다.
  • 적대적 사전 지식을 사용할 경우, 픽셀 수준의 손실에만 의존하는 모델 대비 재구성 정밀도와 분리도가 크게 향상된다.
  • AIGNs는 사전 지식과 렌더링 피드백을 통한 약한 지도 학습이 역영상학 작업에서 강한 지도 학습과 비교해도 성능을 달성할 수 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.