Skip to main content
QUICK REVIEW

[논문 리뷰] Visual Prompt Tuning for Test-time Domain Adaptation

Yunhe Gao, Xingjian Shi|arXiv (Cornell University)|2022. 10. 10.
Domain Adaptation and Few-Shot Learning인용 수 22
한 줄 요약

이 논문은 테스트 시간 도메인 적응을 위한 데이터 효율적 프롬프트 튜닝(DePT)을 소개합니다. ViT 백본을 고정하고 시각 프롬프트와 분류기를 미세 조정하며, 메모리-뱅크 가짜 라벨링과 계층적 자기지도 규제를 통해 아주 적은 tunable 매개변수로도 최첨단 결과를 달성합니다.

ABSTRACT

Models should be able to adapt to unseen data during test-time to avoid performance drops caused by inevitable distribution shifts in real-world deployment scenarios. In this work, we tackle the practical yet challenging test-time adaptation (TTA) problem, where a model adapts to the target domain without accessing the source data. We propose a simple recipe called extit{Data-efficient Prompt Tuning} (DePT) with two key ingredients. First, DePT plugs visual prompts into the vision Transformer and only tunes these source-initialized prompts during adaptation. We find such parameter-efficient finetuning can efficiently adapt the model representation to the target domain without overfitting to the noise in the learning objective. Second, DePT bootstraps the source representation to the target domain by memory bank-based online pseudo-labeling. A hierarchical self-supervised regularization specially designed for prompts is jointly optimized to alleviate error accumulation during self-training. With much fewer tunable parameters, DePT demonstrates not only state-of-the-art performance on major adaptation benchmarks VisDA-C, ImageNet-C, and DomainNet-126, but also superior data efficiency, i.e., adaptation with only 1\% or 10\% data without much performance degradation compared to 100\% data. In addition, DePT is also versatile to be extended to online or multi-source TTA settings.

연구 동기 및 목표

  • 출처 학습 모델을 테스트 시간에 소스 데이터 없이 보이지 않는 대상 도메인에 적응시키는 방법을 제시한다.
  • 비전 트랜스포머에 시각 프롬프트를 도입하고 프롬프트와 분류기만 업데이트하며 백본은 고정함으로써 매개변수 효율적인 튜닝 전략을 개발한다.
  • 메모리-뱅크 가짜 라벨링과 계층적 자기지도 규화를 프롬프트에 결합하는 학습 목표를 제안한다.
  • 프롬프트-튜닝이 제한된 대상 데이터와 온라인 및 다중 출처 TTA 설정에서도 강력한 성능을 발휘함을 보인다.

제안 방법

  • ViT의 다중 트랜스포머 계층에 학습 가능한 시각 프롬프트를 삽입하고 백본은 고정한 채 프롬프트와 분류 헤드만 미세 조정한다.
  • 대상 데이터에 대해 교사-학생 EMA 설치를 통한 온라인 메모리-뱅크 정제를 사용하여 가짜 라벨을 생성한다.
  • DINO에서 영감을 얻은 CLS 토큰 및 축적된 프롬프트에 대한 계층적 자기지도 규화를 통해 대상 표현을 개선하고 자기 학습 오차 누적를 줄인다.
  • 가짜 라벨 손실과 계층적 자기지도 손실, 프롬프트가 다양한 특징에 주의를 기울이도록 돕는 다양성 항을 결합한다.
  • 소스 가중치에서 대상 모델을 초기화하고 대상 도메인에 맞춰 프롬프트를 최적화하여 소스-대상 적응을 제공한다.

실험 결과

연구 질문

  • RQ1고정된 ViT에서 시각 프롬프트 튜닝이 소스 데이터 접근 없이 효과적인 테스트 타임 적응을 제공할 수 있는가?
  • RQ2메모리-뱅크 기반 가짜 라벨링과 계층적 자기지도 규화가 프롬프트 기반 TTA를 어떻게 개선하는가?
  • RQ3오프라인, 온라인, 다중 출처 TTA 설정에서 DePT의 데이터 효율성과 매개변수 효율성은 어떠한가?
  • RQ4DePT가 기존 TTA 방법들과 비교하여 VisDA-C, ImageNet-C, DomainNet-126에서 얼마나 성능을 발휘하는가?

주요 결과

  • 매우 적은 tunable 매개변수로 DePT가 VisDA-C에서 AdaContrast보다 더 높은 성능을 달성한다.
  • DePT는 1%의 비라벨 대상 데이터만으로 VisDA-C에서 88.0% 정확도와 함께 강한 데이터 효율성을 달성하며, 이전 방법들을 상회한다.
  • 온라인 TTA에서 DePT는 VisDA-C에서 평균 정확도 85.9%를 달성하며 기준보다 4.6 포인트 높다.
  • DePT는 ImageNet-C 수준-5 오염에서도 상위-1 오류를 꾸준히 감소시키며 ViT-B 백본에서 DomainNet-126에서도 견고한 성능을 보인다.
  • 가짜 라벨링, 메모리 뱅크, CLS/프롬프트 자기지도, 프롈프트 다양성의 기여도를 분리 분석한 결과가 최종 성과에 기여한다.
  • DePT는 다중 출처 TTA로의 확장을 유연하게 가능하게 하며 훨씬 적은 tunable 매개변수로도 경쟁력 있는 성능을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.