QUICK REVIEW

[논문 리뷰] Image to Image Translation for Domain Adaptation

Zak Murez, Soheil Kolouri|arXiv (Cornell University)|2017. 12. 01.

Domain Adaptation and Few-Shot Learning참고 문헌 28인용 수 25

한 줄 요약

이 논문은 타겟 도메인의 레이블이 필요 없이, 쌍이 맞지 않는 이미지 간 번역 기법을 활용하여 소스 도메인과 타겟 도메인 간의 특징을 정렬하는 통합된 비지도 도메인 적응 프레임워크를 제안한다. 도메인에 관계없이 특징을 추출하고, 사이클 일관성 있는 복원 및 적대적 도메인 정렬을 강제함으로써, 이 방법은 숫자 분류(MNIST, USPS, SVHN) 및 의미적 세그멘테이션(GTA5에서 Cityscapes로)에서 최신 기술 수준의 성능을 달성하며, 실세계 적용 환경에서 도메인 이동 오차를 크게 감소시킨다.

ABSTRACT

We propose a general framework for unsupervised domain adaptation, which allows deep neural networks trained on a source domain to be tested on a different target domain without requiring any training annotations in the target domain. This is achieved by adding extra networks and losses that help regularize the features extracted by the backbone encoder network. To this end we propose the novel use of the recently proposed unpaired image-toimage translation framework to constrain the features extracted by the encoder network. Specifically, we require that the features extracted are able to reconstruct the images in both domains. In addition we require that the distribution of features extracted from images in the two domains are indistinguishable. Many recent works can be seen as specific cases of our general framework. We apply our method for domain adaptation between MNIST, USPS, and SVHN datasets, and Amazon, Webcam and DSLR Office datasets in classification tasks, and also between GTA5 and Cityscapes datasets for a segmentation task. We demonstrate state of the art performance on each of these datasets.

연구 동기 및 목표

소스 도메인 또는 합성 데이터로 훈련된 모델이 분포 차이로 인해 실세계 타겟 도메인에서 성능이 떨어지는 도메인 이동 문제를 해결하기 위해.
타겟 도메인에 레이블 데이터가 전혀 필요 없는 일반적인 비지도 도메인 적응 프레임워크를 개발하기 위해.
특징 추출, 복원, 도메인 정렬를 위한 공통 컴포넌트를 가진 하나의 아키텍처 안에서 기존 도메인 적응 기법들을 통합하고 일반화하기 위해.
쌍이 맞지 않는 이미지 번역과 사이클 일관성을 활용하여 의미적 세그멘테이션 및 이미지 분류 작업의 성능을 향상시키기 위해.
합성에서 실세계 이미지 번역(GTA5에서 Cityscapes 등) 및 교차 데이터셋 숫자 인식을 포함한 다양한 데이터셋에 걸쳐 프레임워크의 효과성을 입증하기 위해.

제안 방법

프레임워크는 소스 도메인과 타겟 도메인 양쪽에서 도메인에 관계없는 특징을 추출하기 위해 공통 인코더를 사용하며, 이는 적대적 디스criminator를 통해 특징 분포가 구분되지 않도록 보장한다.
공통 특징에서 소스 및 타겟 이미지를 재구성하기 위해 도메인 특화 디코더를 도입하며, 자동에코 손실을 통해 사이클 일관성을 강제한다.
특징을 소스에서 타겟으로, 다시 타겟에서 소스로 변환할 때 원본 콘텐츠를 유지하도록 보장하기 위해 사이클 일관성 손실을 사용한다. 이는 모드 붕괴를 방지한다.
분류 헤드는 소스 도메인 특징에서 훈련되며, 타겟 도메인은 특징 정렬 및 복원을 위한 목적 외에는 supervision으로 사용되지 않는다.
훈련 목표는 분류 손실, 복원 손실, 아이덴티티 손실, 사이클 일관성 손실을 조합하며, 구성 요소들을 균형 잡기 위해 학습 가능한 하이퍼파ram터를 사용한다.
프레임워크는 ADAM 옵timizer를 사용하여 훈련되며, 인코더와 다른 컴포넌트에 대해 별도의 학습률을 적용하고, 이미지 디스criminator에 대해 개선된 워셔스타인 GAN 손실과 기울기 페널티를 사용한다.

실험 결과

연구 질문

RQ1타겟 도메인에 레이블 데이터가 전혀 필요 없는 통합된 딥 러닝 프레임워크가 비지도 도메인 적응을 효과적으로 수행할 수 있는가?
RQ2다른 데이터 분포를 가진 도메인 간 특징를 정렬하기 위해 이미지 간 번역 기법을 어떻게 적응시킬 수 있는가?
RQ3사이클 일관성과 도메인에 관계없는 특징 학습을 강제할 경우, 교차 도메인 이미지 분류 및 세그멘테이션에서 일반화 성능가 얼마나 향상되는가?
RQ4이 프레임워크는 합성에서 실세계 주행 환경(예: GTA5에서 Cityscapes) 및 교차 데이터셋 숫자 인식과 같은 다양한 도메인으로 일반화될 수 있는가?
RQ5기존 도메인 적응 접근법과 비교할 때, 제안된 방법은 성능 및 내구성 측면에서 어떻게 다른가?

주요 결과

제안된 방법은 MNIST, USPS, SVHN 숫자 분류 벤치마크에서 기존 비지도 도메인 적응 방법을 능가하는 최신 기술 수준의 성능을 달성한다.
Office-Home 데이터셋(AMAZON, WEBCAM, DSLR)에서 타겟 레이블이 전혀 없이도 교차 도메인 이미지 분류에서 뛰어난 정확도를 달성한다.
GTA5(합성)에서 Cityscapes(실세계)로의 의미적 세그멘테이션 작업에서, 평균 교차율(mIoU)을 크게 향상시켜 도로, 보도, 건물 세그멘테이션의 대규모 오류를 수정한다.
GTA5에서 Cityscapes로의 세그멘테이션 작업에서 기존 방법들을 능가하며, 특히 DenseNet 아키텍처와 조합했을 때 복잡한 실세계 환경에 대한 강력한 일반화 성능을 보여준다.
제거 실험 결과, 아이덴티티 손실과 복원 손실만으로도 대규모 이미지에서 충분하며, 사이클 일관성 손실은 계산 비용이 많이 들고 고해상도 설정에서는 생략 가능함을 확인했다.
공통 디코더 가중치와 적대적 특징 정렬을 사용함으로써, 도메인 간 더 강력하고 분리된 특징 표현이 도출된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.