Skip to main content
QUICK REVIEW

[논문 리뷰] Disentangling factors of variation in deep representations using adversarial training

Michaël Mathieu, Junbo Zhao|arXiv (Cornell University)|2016. 11. 10.
Generative Adversarial Networks and Image Synthesis참고 문헌 21인용 수 252
한 줄 요약

이 논문은 특정 변형 요소를 비지정된 요소와 구분하기 위해 adver-sarial training과 결합된 조건부 변분 자동인코더를 제시하여 약한 감독 하에서 비지도 학습과 같은 분리를 가능하게 한다. 단일 이미지 아날리지와 다수의 데이터셋에 걸친 보지 못한 신원으로의 일반화를 시연한다.

ABSTRACT

We introduce a conditional generative model for learning to disentangle the hidden factors of variation within a set of labeled observations, and separate them into complementary codes. One code summarizes the specified factors of variation associated with the labels. The other summarizes the remaining unspecified variability. During training, the only available source of supervision comes from our ability to distinguish among different observations belonging to the same class. Examples of such observations include images of a set of labeled objects captured at different viewpoints, or recordings of set of speakers dictating multiple phrases. In both instances, the intra-class diversity is the source of the unspecified factors of variation: each object is observed at multiple viewpoints, and each speaker dictates multiple phrases. Learning to disentangle the specified factors from the unspecified ones becomes easier when strong supervision is possible. Suppose that during training, we have access to pairs of images, where each pair shows two different objects captured from the same viewpoint. This source of alignment allows us to solve our task using existing methods. However, labels for the unspecified factors are usually unavailable in realistic scenarios where data acquisition is not strictly controlled. We address the problem of disentanglement in this more general setting by combining deep convolutional autoencoders with a form of adversarial training. Both factors of variation are implicitly captured in the organization of the learned embedding space, and can be used for solving single-image analogies. Experimental results on synthetic and real datasets show that the proposed method is capable of generalizing to unseen classes and intra-class variabilities.

연구 동기 및 목표

  • 라벨 관련 요인과 다른 가변성을 분리하도록 표현 학습을 자극합니다.
  • VAE와 GAN을 결합한 조건부 생성 모델을 제안하여 약한 감독 하에서 분리 가능성을 달성합니다.
  • 강한 라벨링이 필요 없는 nuisance 요인에 대해 단일 이미지 아날로지 및 조건부 생성을 해결할 수 있도록 합니다.
  • 모델이 보지 못한 신원 및 intra-class 변동에 대해 합성 데이터와 실제 데이터 세트 전반에 걸쳐 일반화함을 보여줍니다.

제안 방법

  • 지정된 요인 s와 지정되지 않은 잠재 변수 z를 가진 두 소스 조건부 생성 모델을 도입합니다.
  • 공유 네트워크에서 두 개의 헤드로 분기되는 (s, z)로 x를 매핑하는 인코더를 사용합니다.
  • z와 s로부터 x를 재구성하고 샘플링하기 위해 디코더 p_theta(x|z,s)를 학습합니다.
  • 뷰를 교환할 때 z에 대해 s의 정보 누출을 방지하기 위해 판별적(GAN) 규제항을 도입합니다.
  • VAE 증거 하한(EVB)과 GAN 기반 손실을 결합한 목표를 최적화하여 분리(disentanglement)를 강제합니다.
  • 샘플 간에 지정된 요인과 지정되지 않은 요인을 교환하는 학습 절차를 제공하여 클래스 신원과의 정렬을 촉진합니다.

실험 결과

연구 질문

  • RQ1약한 감독 하에서 심층 생성 모델이 지정된 변 factor를 지정되지 않은 것들로부터 구분할 수 있는가?
  • RQ2판별기와의 샘플 간에 지정된 요인과 지정되지 않은 요인을 교환하는 것이 데이터 정렬 없이 의미 있는 분리를 강제하는가?
  • RQ3학습된 s 및 z 구성요소가 데이터셋 간의 클래스 신원 및 클래스 내 변variation을 얼마나 잘 포착하는가?
  • RQ4모델이 보지 못한 신원 및 훈련 중 보지 못한 변 Variation까지 분리 가능성을 일반화할 수 있는가?
  • RQ5적대적 규제의 영향은 생성 샘플의 품질과 표현의 분리에 어떤 차이가 있는가?

주요 결과

  • 모델은 여러 데이터셋에 걸쳐 지정된 요인과 지정되지 않은 요인의 명확한 분리를 가능하게 한다.
  • 지정된 구성요소는 신원에 대한 높은 정보 함량을 유지하며 분류 과제에서 감독된 기법에 근접한 성능을 보인다.
  • 지정되지 않은 구성요소는 신원에 대해 거의 불변에 가까워 분류 테스트에서 랜덤 베이스라인과 유사하게 동작한다.
  • 단일 이미지 아날로지와 보간은 두 요인 모두에 걸쳐 생성 샘플을 일관되게 제어하는 모습을 보여준다.
  • 정량적 결과는 보지 못한 신원 및 intra-class 변 Variation에 대해 일반화 가능성과 함께 경쟁력 있는 분리 성능을 시사한다.
  • 적대적 규제는 결정적이며, 이를 없으면 모델이 지정된 구성요소를 무시하는 경향으로 붕괴한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.