QUICK REVIEW

[논문 리뷰] DIVA: Domain Invariant Variational Autoencoders

Maximilian Ilse, Jakub M. Tomczak|arXiv (Cornell University)|2019. 05. 24.

Domain Adaptation and Few-Shot Learning참고 문헌 43인용 수 66

한 줄 요약

DIVA는 VAE 내부에서 도메인, 클래스, 잔여(latent)의 세 개의 독립된 잠재 부분공간을 학습하여 도메인 일반화를 달성하며, 라벨이 없는 데이터를 활용해 성능을 높일 수 있다.

ABSTRACT

We consider the problem of domain generalization, namely, how to learn representations given data from a set of domains that generalize to data from a previously unseen domain. We propose the Domain Invariant Variational Autoencoder (DIVA), a generative model that tackles this problem by learning three independent latent subspaces, one for the domain, one for the class, and one for any residual variations. We highlight that due to the generative nature of our model we can also incorporate unlabeled data from known or previously unseen domains. To the best of our knowledge this has not been done before in a domain generalization setting. This property is highly desirable in fields like medical imaging where labeled data is scarce. We experimentally evaluate our model on the rotated MNIST benchmark and a malaria cell images dataset where we show that (i) the learned subspaces are indeed complementary to each other, (ii) we improve upon recent works on this task and (iii) incorporating unlabelled data can boost the performance even further.

연구 동기 및 목표

의료 영상에서의 학습 도메인이 보지 못한 테스트 도메인과 차이가 있는 도메인 일반화를 동기화한다.
도메인, 클래스, 잔여 요인을 각각의 잠재 부분공간으로 분리하는 생성 모델(DIVA)을 제안한다.
알려진 도메인 및 보지 못한 도메인에서 라벨 없는 데이터를 활용한 반지도 학습을 가능하게 한다.
회전된 MNIST 및 말라리아 세포 이미지 데이터셋에서 disentanglement와 일반화 향상을 보여준다.
라벨 없는 데이터가 성능을 높일 수 있으며 도메인 공간에서의 보간(interpolation)과 외삽(extrapolation)에 대해 논의한다.]
method:[
세 가지 독립 잠재 변수 z_d(도메인), z_y(클래스), z_x(잔여)와 각각의 사전분포 p(z_d|d), p(z_y|y), p(z_x)를 도입한다.
x로부터 z_d, z_y, z_x를 추정하기 위해 q_phi_d, q_phi_y, q_phi_x의 세 개의 분리된 인코더를 사용하고, 공유 디코더 p_theta(x|z_d,z_x,z_y)로 복원한다.
각 잠재에 대해 재구성 항과 KL 페널티를 포함한 beta-VAE 유사 하한을 최적화한다: L_s = E[...] log p_theta(x|z_d,z_x,z_y) - beta[KL(q_phi_d(z_d|x)||p_theta_d(z_d|d)) + KL(q_phi_x(z_x|x)||p(z_x)) + KL(q_phi_y(z_y|x)||p_theta_y(z_y|y))].
disentanglement를 촉진하기 위해 z_d에서 도메인을, z_y에서 클래스를 예측하는 보조 목표를 포함한다: F_DIVA = L_s + alpha_d E[log q_omega_d(d|z_d)] + alpha_y E[log q_omega_y(y|z_y)].
반지도학습 DIVA로 라벨이 있는(d,x,y) 데이터와 라벨이 없는(d,x) 데이터를 함께 학습하고, y에 대해 주변분류기를 도입하고 equation(4)에서와 같이 지도/비지도 항을 혼합하는 목표를 포함하여 확장한다.

제안 방법

세 가지 독립 잠재 변수 z_d(도메인), z_y(클래스), z_x(잔여) 및 각자 사전 p(z_d|d), p(z_y|y), p(z_x)를 도입한다.
x로부터 z_d, z_y, z_x를 추정하기 위해 q_phi_d, q_phi_y, q_phi_x의 세 개의 분리된 인코더를 사용하고, 공유 디코더 p_theta(x|z_d,z_x,z_y)로 재구성한다.
beta-VAE 유사 하한으로 재구성 항과 각 잠재에 대한 KL 페널티를 최적화한다: L_s = E[...] log p_theta(x|z_d,z_x,z_y) - beta[KL(q_phi_d(z_d|x)||p_theta_d(z_d|d)) + KL(q_phi_x(z_x|x)||p(z_x)) + KL(q_phi_y(z_y|x)||p_theta_y(z_y|y))].
disentanglement를 촉진하기 위해 z_d에서 도메인을, z_y에서 클래스를 예측하는 보조 목적을 포함한다: F_DIVA = L_s + alpha_d E[log q_omega_d(d|z_d)] + alpha_y E[log q_omega_y(y|z_y)].
라벨이 있는(d,x,y)와 라벨이 없는(d,x) 데이터를 함께 학습하고 y에 대한 보조 분류기와 z_y에서의 목표를 도입하여 지도/비지도 항을 혼합하는 목표를 equation(4)와 같이 확장한다.

실험 결과

연구 질문

RQ1VAE의 세 가지 가지 지점(도메인, 클래스, 잔여) 잠재 공간이 도메인 특이 정보와 클래스 특이 정보를 서로 분리하여 보지 못한 도메인에 대한 일반화를 향상시킬 수 있는가?
RQ2Known 도메인 또는 보지 못한 도메인의 라벨 없는 데이터가 DIVA의 도메인 일반화 성능을 향상시키는가?
RQ3DIVA가 회전된 MNIST 및 말라리아 세포 이미지와 같은 벤치마크에서 도메인 적대적 방법 및 기타 도메인 일반화 방법과 어떻게 비교되는가?

주요 결과

DIVA는 회전된 MNIST 테스트 도메인에서 DA, LG, HEX 및 ADV보다 더 높은 테스트 정확도를 달성한다.
라벨 없는 데이터를 (+1, +3, +5, +9) 추가하면 일반적으로 성능이 향상되며, 라벨 데이터가 지배적일 때는 이득이 감소한다.
잠재 공간이 해방되어 있다: z_d는 도메인을, z_y는 클래스를, z_x는 잔여 변화를 포착하여 조건부 재구성 및 샘플 생성을 가능하게 한다.
말라리아 세포 이미지에서 DIVA는 여러 도메인에서 기본 방법보다 ROC AUC를 향상시키고, 반지도 학습에서 라벨 없는 데이터의 이점을 얻는다.
DIVA는 새로운 도메인에서 라벨 없는 데이터로부터 학습할 수 있으며, y 예측자와 도메인 인코더를 업데이트하여 일반화를 개선한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.