Skip to main content
QUICK REVIEW

[논문 리뷰] Asymmetric Tri-training for Unsupervised Domain Adaptation

Kuniaki Saito, Yoshitaka Ushiku|arXiv (Cornell University)|2017. 02. 27.
Domain Adaptation and Few-Shot Learning참고 문헌 33인용 수 441
한 줄 요약

새로운 비대칭 삼중 학습 프레임워크는 두 개의 분류기를 사용해 대상 데이터를 의사레이블링하고, 이 의사레이블을 학습한 세 번째 대상 지향 네트워크를 통해 여러 시각 및 감정 분석 작업에서 최첨단 성능을 달성한다.

ABSTRACT

Deep-layered models trained on a large number of labeled samples boost the accuracy of many tasks. It is important to apply such models to different domains because collecting many labeled samples in various domains is expensive. In unsupervised domain adaptation, one needs to train a classifier that works well on a target domain when provided with labeled source samples and unlabeled target samples. Although many methods aim to match the distributions of source and target samples, simply matching the distribution cannot ensure accuracy on the target domain. To learn discriminative representations for the target domain, we assume that artificially labeling target samples can result in a good representation. Tri-training leverages three classifiers equally to give pseudo-labels to unlabeled samples, but the method does not assume labeling samples generated from a different domain.In this paper, we propose an asymmetric tri-training method for unsupervised domain adaptation, where we assign pseudo-labels to unlabeled samples and train neural networks as if they are true labels. In our work, we use three networks asymmetrically. By asymmetric, we mean that two networks are used to label unlabeled target samples and one network is trained by the samples to obtain target-discriminative representations. We evaluate our method on digit recognition and sentiment analysis datasets. Our proposed method achieves state-of-the-art performance on the benchmark digit recognition datasets of domain adaptation.

연구 동기 및 목표

  • 대상 라벨이 없을 때 구별 가능한 대상 도메인 표현의 필요성을 동기화한다.
  • 대상 샘플에 대한 의사레이블을 생성하기 위한 비대칭 삼중 학습 아키텍처를 도입한다.
  • 노이즈가 있는 의사레이블의 영향력을 완화하면서 대상-구별 표현을 학습한다.

제안 방법

  • 공유 특성 추출기 F가 세 가지 분류기로 전달된다: F1과 F2는 소스와 의사레이블된 대상에 대해 훈련되고, Ft는 의사레이블된 대상에만 훈련된다.
  • F1과 F2에 대한 3-방향 손실은 다양한 관점을 장려하기 위한 가중치 제약 항 |W1^T W2|를 포함한다.
  • 의사레이블링은 F1과 F2의 동의와 대상-레이블 집합에 추가되기 전에 신뢰도 임계값(0.9–0.95)을 충족해야 한다.
  • 대상-구별 표현을 강화하기 위해 S ∪ Tl로 모든 네트워크를 번갈아 업데이트하는 학습과 Ft를 Tl로 업데이트하는 학습의 교대가 이루어진다.
  • 배치 정규화를 마지막 층에 추가하여 소스와 대상 특성 분포의 정렬을 돕는다.
  • 이론적 틀은 Ben-David 등(2010)의 경계 조건을 의사레이블된 대상 데이터와 도메인 발산을 고려하도록 수정한다.

실험 결과

연구 질문

  • RQ1대상 라벨이 없고도 의사레이블을 자신 있게 할당할 수 있을 때 비대칭 삼중 학습이 대상 도메인 정확도를 개선하는가?
  • RQ2대상 특수 네트워크 Ft와 공유 특성 추출기 F의 포함이 대상-구별 표현 학습에 어떤 영향을 미치는가?
  • RQ3의사레이블된 대상 샘플을 포함하는 것이 도메인 발산을 줄이고 분포 정합 방식보다 대상 성능을 개선하는가?

주요 결과

  • 시각 도메인 적응 벤치마크에서 최첨단 성능을 달성했으며, 특히 MNIST→SVHN에서 경쟁자들보다 10%포인트 이상 향상됐다.
  • MNIST→MNIST-M, SVHN→MNIST, SYN DIGITS→SVHN, SYN SIGNS→GTSRB 과제에서 베이스라인을 상회했다.
  • 아마존 리뷰 감정 전이에서 대부분의 설정에서 VFAE와 DANN을 능가했고, BN 및 그래디언트 공유 분석은 다양한 구성에서의 효과를 강조했다.
  • 적응 후 타깃 샘플이 더 구별력이 있게 되는 것을 t-SNE 시각화가 보여준다.
  • 의사레이블된 대상 데이터를 포함하더라도 소스 전용 CNN에 비해 실험적 A-거리(A-distance)를 감소시키는 반면, 더 강력한 도메인 적응 베이스라인과 비교해도 대상 정확도가 우수하다.
  • 세 네트워크 F1, F2, Ft는 성능이 수렴하는 경향을 보여 공유된 대상-구별 표현을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.