QUICK REVIEW

[논문 리뷰] Unsupervised Cross-Domain Image Generation

Yaniv Taigman, Adam Polyak|arXiv (Cornell University)|2016. 11. 07.

Generative Adversarial Networks and Image Synthesis참고 문헌 18인용 수 428

한 줄 요약

논문은 Domain Transfer Network(DTN)를 제시합니다. 이는 f를 고정된 표현으로 사용하고 학습된 g를 합성하여 샘플 S를 목표 도메인 T로 매핑하는 비지도 방법으로, 다중 클래스 GAN 손실, f-상수성, 그리고 자기 정체성 정규화를 이용해 디지털 및 얼굴에서 신원(identity)을 보존하면서도 교차 도메인 이미지를 설득력 있게 생성합니다.

ABSTRACT

We study the problem of transferring a sample in one domain to an analog sample in another domain. Given two related domains, S and T, we would like to learn a generative function G that maps an input sample from S to the domain T, such that the output of a given function f, which accepts inputs in either domains, would remain unchanged. Other than the function f, the training data is unsupervised and consist of a set of samples from each domain. The Domain Transfer Network (DTN) we present employs a compound loss function that includes a multiclass GAN loss, an f-constancy component, and a regularizing component that encourages G to map samples from T to themselves. We apply our method to visual domains including digits and face images and demonstrate its ability to generate convincing novel images of previously unseen entities, while preserving their identity.

연구 동기 및 목표

소스 도메인 S에서 관련 대상 도메인 T로 감독 신호 없이 샘플을 전이하는 방법을 개발한다.
목표 도메인 출력이 주어진 네트워크 f에 암호화된 기능적 동일성을 보존하도록 한다.
학습 가능한 g와 고정된 표현 f를 조합하는 아키텍처 설계를 촉진하여 f-관련 특징에 초점을 맞춘다.
숫자 및 얼굴-이모지 번역에 대해 접근 방식을 시연하고 구성 요소와 한계를 분석한다.

제안 방법

f가 고정된 특징 추출기이고 g가 f(x)를 목표 도메인 표현으로 매핑하는 두 부분으로 구성된 G = g ∘ f를 사용한다.
실제 표적 샘플과 S 및 T에서 생성된 샘플 간 구분하는 다중 클래스 GAN 손실로 학습한다.
S에 대해 ||f(x) − f(G(x))||를 최소화하는 f-상수성 손실을 추가한다.
샘플이 T에서 항등인 경우 G가 항등이 되도록 하는 목표 정체성 정규화 L_TID를 포함한다.
생성된 이미지를 매끄럽게 하기 위한 총 변화(loss) L_TV를 도입한다.
D가 손실을 최소화하고 G가 해당 합성 손실을 최소화하는 교대 방식으로 최적화한다.

실험 결과

연구 질문

RQ1S와 T의 비지도 샘플을 학습된 G를 통해 매핑할 수 있어, 후속 함수 f가 불변 출력을 내는가: f(x) ≈ f(G(x))?
RQ2고정된 f와 G를 합성하고 다중 클래스 GAN 손실을 사용하는 것이 교차 도메인 전이를 기존 설정보다 향상시키는가?
RQ3DTN이 시각적으로 멀리 떨어진 도메인 쌍에서 얼마나 잘 작동하는가(예: SVHN→MNIST, 실제 얼굴→이모지)?
RQ4각 손실 항(f-상수성, L_TID, TV, GAN)이 전이 품질에 미치는 영향은 무엇인가?
RQ5DTN이 감독 없는 도메인 적응 및 스타일 변환(예: DTN 프레임워크 내에서의 스타일 전이)을 용이하게 할 수 있는가?

주요 결과

표	지표/측면	값(들)
Table 1	Digit transfer (SVHN→MNIST) accuracy on MNIST classifier	Baseline method (Sec. 3) 13.71%; DTN 90.66%; DTN w/0 L_TID 88.40%; DTN w/0 L_CONST 74.55%; DTN G does not contain f 36.90%; DTN w/0 L_D and L_GANG 34.70%; DTN w/0 L_CONST & L_TID 5.28%; Original SVHN image 40.06%
Table 2	Domain adaptation / MNIST target	SA Fernando et al. 2013 59.32%; DANN Ganin et al. 2016 73.85%; DTN train s 84.44%; DTN test 79.72%
Table 3	Digit ‘3’ ablation (accuracy on MNIST for transferred SVHN examples labeled ‘3’)	DTN 94.67%; ‘3’ not shown in s 93.33%; ‘3’ not shown in t 40.13%; not shown in s&t 60.02%; not shown in s,t, and f trained 4.52%
Table 4	Face retrieval / CelebA-based emoji	Median rank Manual 16311; Emoji by DTN 16; Mean rank 27992.34 vs 535.47; Rank-1 0% vs 22.88%; Rank-5 0% vs 34.75%

DTN은 S에서 직접 작동하는 기저 방법보다 교차 도메인 전이 정확도가 더 높으며, 예를 들어 SVHN→MNIST를 MNIST 분류기에서의 정확도 90.66%로 달성하고 기저 방법은 13.71%에 그친다.
DTN은 감독 없는 도메인 적응을 경쟁력 있게 또는 우수하게 수행하며, SVHN 테스트 세트의 MNIST 분류기 정확도는 DTN 79.72% 대 73.85%(DANN) 및 59.32%(SAFER 기저)이다.
L_CONST 또는 L_TID를 제거하면 성능이 저하된다. 특히 L_CONST는 매우 중요하며, L_CONST 없이 DTN은 74.55%로 떨어지고 L_CONST 및 L_TID를 모두 제거하면 숫자 실험에서 5.28%로 떨어진다.
얼굴에 적용했을 때 DTN은 수작업으로 만든 이모지보다 더 구별력이 높은 이모지를 생성하며, 검색의 중앙값 랭크는 수동 이모지의 중앙값 16311 대비 DTN 16으로 나타났고, 랭크-1은 수동의 22.88% 대비 0%이다.
DTN은 도메인 전이의 특수한 경우로 스타일 전이를 수행하여 사진에서 이모지 스타일의 출력을 생성하고, 하나의 이미지에서 얼굴로의 스타일 전이를 수행하는 데 사용할 수 있다.
DTN은 f에 의해 포착된 신원 정보를 보존하면서 보이지 않는 엔티티에서도 설득력 있는 새로운 샘플을 생성하는 능력을 보여준다.
보이지 않는 클래스 원소에 대한 차폐 연구는 s 또는 f 훈련 데이터에 해당 클래스가 없을 때 대상 도메인에서 없는 클래스를 생성하지 않는 모델의 견고함을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.