[논문 리뷰] TVT: Transferable Vision Transformer for Unsupervised Domain Adaptation
TVT는 Transferability Adaptation Module(TAM)와 Discriminative Clustering Module(DCM)을 도입하여 비전 트랜스포머가 도메인 간에 효과적으로 적응하도록 만들고, 숫자와 물체 인식 벤치마크에서 베이스라인보다 우수하게 수행한다.
Unsupervised domain adaptation (UDA) aims to transfer the knowledge learnt from a labeled source domain to an unlabeled target domain. Previous work is mainly built upon convolutional neural networks (CNNs) to learn domain-invariant representations. With the recent exponential increase in applying Vision Transformer (ViT) to vision tasks, the capability of ViT in adapting cross-domain knowledge, however, remains unexplored in the literature. To fill this gap, this paper first comprehensively investigates the transferability of ViT on a variety of domain adaptation tasks. Surprisingly, ViT demonstrates superior transferability over its CNNs-based counterparts with a large margin, while the performance can be further improved by incorporating adversarial adaptation. Notwithstanding, directly using CNNs-based adaptation strategies fails to take the advantage of ViT's intrinsic merits (e.g., attention mechanism and sequential image representation) which play an important role in knowledge transfer. To remedy this, we propose an unified framework, namely Transferable Vision Transformer (TVT), to fully exploit the transferability of ViT for domain adaptation. Specifically, we delicately devise a novel and effective unit, which we term Transferability Adaption Module (TAM). By injecting learned transferabilities into attention blocks, TAM compels ViT focus on both transferable and discriminative features. Besides, we leverage discriminative clustering to enhance feature diversity and separation which are undermined during adversarial domain alignment. To verify its versatility, we perform extensive studies of TVT on four benchmarks and the experimental results demonstrate that TVT attains significant improvements compared to existing state-of-the-art UDA methods.
연구 동기 및 목표
- CNN과 비교하여 다양한 도메인 적응 과제에서 ViT의 이전 가능성을 조사한다.
- ViT 특징에 대한 순진한 적대적 정렬의 한계를 식별한다.
- 전이 가능하고 판별 가능한 표현을 위해 ViT 어텐션에 패치 수준 전이 가능성을 주입하도록 TAM을 설계한다.
- 도메인을 정렬하는 동시에 판별 정보를 보존하기 위해 DCM을 도입한다.
- 표준 UDA 벤치마크에서 광범위한 실험을 통해 TVT의 효과를 입증한다.
제안 방법
- 백본으로 ViT를 사용하되 마지막 트랜스포머 계층을 Transferability Adaptation Module (TAM)로 교체한다.
- TAM에서 패치 판별기 D_l을 이용해 패치 수준의 전이 가능성을 계산하고 per-patch transferability t_ir = H(D_l(f_ir))를 도출한다.
- 표준 Multi-head Self-Attention을 Transferable MSA (T-MSA)로 대체하고 패치 토큰에 전이 가능성을 가중치로 적용하되 판별 가능한 어텐션을 보존한다.
- Discriminative Clustering Module (DCM)을 적용하여 타깃 특징이 잘 구분된 클러스터를 형성하도록 하되 전역 다양성은 상호정보 I(p^t; x^t)로 유지한다.
- 전체 목적 함수 최적화: L_clc(x^s,y^s) + α L_dis(x^s,x^t) + β L_pat(x^s,x^t) − γ I(p^t; x^t).
- 기준 비교에는 전역적 적대적 정렬을 가진 바닐라 ViT가 포함되며; TVT는 더 미세한 전이 가능성과 판별을 위해 TAM과 DCM을 추가한다.
실험 결과
연구 질문
- RQ1도메인 시프트에 대해 ViT의 전달 가능성은 CNN 기반 백본과 비교하여 어느 정도인가?
- RQ2ViT가 판별 정보를 손상시키지 않으면서 적대적 정렬의 이점을 얻을 수 있는가?
- RQ3ViT의 패치 수준 전이 가능성과 어텐션을 활용하여 UDA 성능을 향상시킬 수 있는가?
- RQ4정렬 과정에서 타깃 도메인의 판별 구조를 보존하는 판별적 클러스터링 목표를 포함하는가?
주요 결과
- Source Only인 ViT가 이미 여러 UDA 벤치마크에서 여러 CNN 백본보다 우수하게 성능을 보인다(예: Office-31, Office-Home, VisDA-2017).
- 적대적 적응은 ViT(Baseline)를 향상시키지만 TAM+DCM은 ViT의 패치 수준 토큰과 어텐션을 활용해 추가 이득을 얻는다.
- Digits에서 TVT는 작업 간 평균 정확도에서 최고를 달성하고(예: Avg = 98.87) Target Only 성능과의 격차를 줄인다.
- Office-31에서 TVT의 Avg = 93.85로 Baseline 및 Source Only를 능가한다.
- Office-Home에서 Avg = 83.56로 이전 최고치(71.8%)보다 크게 높다.
- VisDA-2017에서 Avg = 83.92를 달성하여 강한 베이스라인과 비슷하거나 우수하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.