Skip to main content
QUICK REVIEW

[논문 리뷰] CDTrans: Cross-domain Transformer for Unsupervised Domain Adaptation

Tongkun Xu, Weihua Chen|arXiv (Cornell University)|2021. 09. 13.
Domain Adaptation and Few-Shot Learning참고 문헌 84인용 수 111
한 줄 요약

CDTrans는 교차 어텐션을 갖춘 가중치 공유 세 가지 가지 분기 Transformer를 도입하여 비지도 도메인 적응(UDA)을 수행하고, 소스와 타깃 도메인을 정렬하기 위한 양방향 센터 인지 중심 가짜 라벨링을 사용하여 VisDA-2017 및 DomainNet에서 최첨단 성능을 달성한다.

ABSTRACT

Unsupervised domain adaptation (UDA) aims to transfer knowledge learned from a labeled source domain to a different unlabeled target domain. Most existing UDA methods focus on learning domain-invariant feature representation, either from the domain level or category level, using convolution neural networks (CNNs)-based frameworks. One fundamental problem for the category level based UDA is the production of pseudo labels for samples in target domain, which are usually too noisy for accurate domain alignment, inevitably compromising the UDA performance. With the success of Transformer in various tasks, we find that the cross-attention in Transformer is robust to the noisy input pairs for better feature alignment, thus in this paper Transformer is adopted for the challenging UDA task. Specifically, to generate accurate input pairs, we design a two-way center-aware labeling algorithm to produce pseudo labels for target samples. Along with the pseudo labels, a weight-sharing triple-branch transformer framework is proposed to apply self-attention and cross-attention for source/target feature learning and source-target domain alignment, respectively. Such design explicitly enforces the framework to learn discriminative domain-specific and domain-invariant representations simultaneously. The proposed method is dubbed CDTrans (cross-domain transformer), and it provides one of the first attempts to solve UDA tasks with a pure transformer solution. Experiments show that our proposed method achieves the best performance on public UDA datasets, e.g. VisDA-2017 and DomainNet. Code and models are available at https://github.com/CDTrans/CDTrans.

연구 동기 및 목표

  • 비지도 도메인 적응(UDA)을 동기화하고 범주 수준 정렬에서의 가짜 라벨 소음 문제를 다룬다.
  • robust 소스-타깃 정합을 위한 cross-attention을 사용하는 순수 Transformer 기반 프레임워크(CDTrans)를 제안한다.
  • 교차 도메인 유사도 및 센터 기반 정제를 바탕으로 고품질 가짜 라벨을 생성하는 양방향 센터 인지 가짜 라벨링 방법을 소개한다.
  • VisDA-2017, DomainNet 등 주요 UDA 벤치마크에서 최첨단 성능을 입증한다.

제안 방법

  • 소스, 타깃, 소스-타깃 분기의 가중치 공유 트리플-브랜치를 제안한다.
  • 도메인 정합을 위해 소스/타깃 분기에 자기-주의(self-attention)를, 소스-타깃 분기에 교차-주의(cross-attention)를 적용한다.
  • 훈련 중 타깃 분대를 감독하기 위해 소스-타깃 분기로부터의 증류 손실(distillation loss)을 사용한다.
  • 교차 도메인 유사도와 센터 기반 정제를 바탕으로 가짜 라벨을 생성하고 필터링하는 양방향 센터 인식 라벨링 알고리즘을 설계한다.
  • 훈련은 소스/타깃 분기에 대한 분류 손실과 소스-타깃 분기와 타깃 분기 간의 증류 손실로 이루어지며, 추론은 타깃 분기만 사용한다.

실험 결과

연구 질문

  • RQ1교차-주의를 가진 순수 Transformer가 가짜 라벨의 노이즈에도 불구하고 두 도메인을 강건하게 정렬함으로써 UDA를 개선할 수 있는가?
  • RQ2양방향 센터 인식 가짜 라벨링 전략이 교차 도메인 Transformer 훈련에 더 높은 품질의 입력 쌍을 생성하는가?
  • RQ3CDTrans 프레임워크가 표준 UDA 벤치마크에서 최첨단 방법과 비교해 어떤 성능을 보이는가?
  • RQ4교차-주의를 사용할 때 cls 대 dtl 등 다양한 손실의 UDA 성능에 미치는 영향은 어떠한가?

주요 결과

  • 교차-주의와 가중치 공유 세 분기(CDTrans)가 강력한 UDA 성능을 달성하여 공개 벤치마크에서 다수의 최첨단 방법을 능가한다.
  • 양방향 센터-인지 라벨링 방법은 가짜 라벨 품질을 향상시켜 실제 라벨 쌍으로 훈련된 상한에 근접한 성능을 보여준다.
  • 포괄적 이견분석은 분류 손실과 증류 손실을 함께 사용하는 것이 VisDA-2017에서 최상의 결과를 낳는다는 것을 보여준다.
  • 트랜스포머는 UDA에서 강건한 일반화를 제공하며, VisDA-2017, Office-Home, Office-31, DomainNet 등 여러 데이터셋에서 CNN 기반 기초 모델 대비 큰 이점을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.