QUICK REVIEW

[논문 리뷰] Test-Time Adaptation via Conjugate Pseudo-labels

Sachin Goyal, Ming-Jie Sun|arXiv (Cornell University)|2022. 07. 20.

Domain Adaptation and Few-Shot Learning인용 수 24

한 줄 요약

논문은 테스트 시간 적응(TTA)을 위한 Conjugate PL(Conjugate Pseudo-Labels)을 도입하고, 학습 손실의 볼록(conjugate)으로부터 손실을 도출한다. 분류 모델을 교차 엔트로피로 학습시킨 경우 모델이 자연스럽게 softmax-entropy(TENT과 유사한) 손실을 선호하는 반면, 제곱 손실 모델은 음의 제곱 손실을 선호한다는 점을 보여준다. 실험적으로 Conjugate PL은 PolyLoss를 포함한 다양한 데이터셋과 손실에서 TTA를 개선하고, 이를 conjugate pseudo-labels를 사용하는 자기 학습(self-training) 스킴으로 해석할 수 있다.

ABSTRACT

Test-time adaptation (TTA) refers to adapting neural networks to distribution shifts, with access to only the unlabeled test samples from the new domain at test-time. Prior TTA methods optimize over unsupervised objectives such as the entropy of model predictions in TENT [Wang et al., 2021], but it is unclear what exactly makes a good TTA loss. In this paper, we start by presenting a surprising phenomenon: if we attempt to meta-learn the best possible TTA loss over a wide class of functions, then we recover a function that is remarkably similar to (a temperature-scaled version of) the softmax-entropy employed by TENT. This only holds, however, if the classifier we are adapting is trained via cross-entropy; if trained via squared loss, a different best TTA loss emerges. To explain this phenomenon, we analyze TTA through the lens of the training losses's convex conjugate. We show that under natural conditions, this (unsupervised) conjugate function can be viewed as a good local approximation to the original supervised loss and indeed, it recovers the best losses found by meta-learning. This leads to a generic recipe that can be used to find a good TTA loss for any given supervised training loss function of a general class. Empirically, our approach consistently dominates other baselines over a wide range of benchmarks. Our approach is particularly of interest when applied to classifiers trained with novel loss functions, e.g., the recently-proposed PolyLoss, where it differs substantially from (and outperforms) an entropy-based loss. Further, we show that our approach can also be interpreted as a kind of self-training using a very specific soft label, which we refer to as the conjugate pseudolabel. Overall, our method provides a broad framework for better understanding and improving test-time adaptation. Code is available at https://github.com/locuslab/tta_conjugate.

연구 동기 및 목표

레이턴시 없는 테스트 데이터에 의해 레이블이 주어지지 않는 분포 변화 하에서 효과적인 TTA 손실을 선택하거나 도출하는 방법을 제시하고 이해한다.
TTA 손실 설계와 감독된 손실의 볼록 결합(conjugate) 사이의 연결고리를 통해 엔트로피형 또는 대체 손실이 언제 최적화되는지 설명한다.
다양한 학습 손실(예: 교차 엔트로피, 제곱 손실, PolyLoss)에 대해 좋은 TTA 손실을 얻기 위한 일반적이고 실용적인 레시피를 제공한다.
제안된 Conjugate PL 방법이 conjugate pseudo-labels를 사용하는 자기 학습 스킴에 해당하며 벤치마크에서 경험적 이점을 보임을 제시한다.]
method:[
supervised 손실의 볼록(conjugate)을 이용해 TTA 손실을 형식화하고, L_conj(h(x)) = -f^*(∇f(h(x)))를 보인다.
일반적인 손실에 특화: f(h)=log sum exp(h)인 교차 엔트로피를 사용할 때 L_conj는 softmax-entropy가 되어 TENT와 일치한다.
제곱 손실의 경우 f(h)=½||h||^2 이면 L_conj는 음의 제곱 노름이 되어 대체 메타 학습 손실을 설명한다.
Conjugate PL을 y_hat^CPL = ∇f(h(x))인 conjugate pseudo-labels를 사용하는 자기 학습으로 해석한다.
PolyLoss를 표준(conjugate 형태) 또는 확장된 형태로 표현하여 비표준 손실에 대해 CPL을 가능하게 한다.
충분한 실용적 개선을 확보하기 위해 unlabeled test 배치에서 CPLs를 사용한 자기 학습으로 모델 파라미터를 업데이트하는 알고리즘(Conjugate PL)을 제시하고, 온도 스케일링을 실용적 향상으로 포함한다.

제안 방법

L_conj(h(x)) = -f^*(∇f(h(x)))를 보이는 supervised 손실의 볼록(conjugate)으로 TTA 손실을 형식화한다.
f(h)=log sum exp(h)인 교차 엔트로피에 특화하면 L_conj가 softmax-entropy가 되어 TENT와 일치한다.
f(h)=½||h||^2인 제곱 손실의 경우 L_conj가 음의 제곱 노름이 되어 대체 메타 학습 손실을 설명한다.
Conjugate PL을 conjugate pseudo-labels y_hat^CPL = ∇f(h(x))를 사용하는 자기 학습으로 해석한다.
PolyLoss를 표준 또는 확장된 conjugate 형태로 표현하여 비표준 손실에 대해 CPL를 가능하게 한다.
비표준 설정에서도 CPL을 위한 일반적 루트를 제공하고 unlabeled test 배치에서 CPLs를 이용한 자기 학습으로 파라미터를 업데이트하는 알고리즘(Conjugate PL)을 제시한다.

실험 결과

연구 질문

RQ1주어진 감독 학습 손실에 대해 테스트 시간 분포 변동 하에서 좋은 TTA 손실의 원리적 형식은 무엇인가?
RQ2교차 엔트로피로 학습된 모델에서 엔트로피 기반 손실이 잘 작동하는 이유는 무엇이며, 대체 손실이 바람직해지는 경우는 언제인가?
RQ3볼록(conjugate)을 이용해 다양한 학습 손실(예: PolyLoss, 제곱 손실)에 대해 TTA 손실을 도출하는 보편적 프레임워크를 제공할 수 있는가?
RQ4Conjugate pseudo-labeling은 자기 학습과 어떤 관계가 있으며, 서로 다른 손실에 대해 어떤 pseudo-label이 최적인가?

주요 결과

메타 러닝으로 최적의 TTA 손실을 찾으면 교차 엔트로피 학습자에서 온도 스케일링된 softmax-entropy를, 제곱 손실 학습자에서는 음의 제곱 손실을 회복하는 경향이 있다.
볼록(conjugate) 프레임워크가 교차 엔트로피의 softmax-entropy가 왜 등장하는지와 다른 손실이 왜 다른 TTA 손실을 낳는지 설명하며 새로운 손실에 대한 일반적인 조리법을 제공한다.
Conjugate PL은 CIFAR-10/100-C, ImageNet-C 및 도메인 적응 작업에서 기저 TTA 손실(예: 엔트로피 최소화, 강건한 pseudo-labels, MEMO)을 꾸준히 능가한다.
PolyLoss 및 제곱 손실 분류기에 Conjugate PL을 적용하면 상당한 이득이 나타나며, 소스 학습 손실이 표준 교차 엔트로피와 다를 때 특히 이점이 있음을 보여준다.
이 방법은 conjugate pseudo-labels를 사용하는 자기 학습 방식으로 해석될 수 있으며, 원리적이고 광범위하게 적용 가능한 TTA 프레임워크를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.