[논문 리뷰] Towards Stable Test-Time Adaptation in Dynamic Wild World
논문은 샤프니스-어웨어하고 신뢰할 수 있는 엔트로피 최소화 방법인 SAR을 도입하여 노이즈 샘플을 필터링하고 평탄한 최소값을 촉진함으로써 거친 테스트 조건에서 완전한 테스트 시 적응(TTA)을 안정화한다.
Test-time adaptation (TTA) has shown to be effective at tackling distribution shifts between training and testing data by adapting a given model on test samples. However, the online model updating of TTA may be unstable and this is often a key obstacle preventing existing TTA methods from being deployed in the real world. Specifically, TTA may fail to improve or even harm the model performance when test data have: 1) mixed distribution shifts, 2) small batch sizes, and 3) online imbalanced label distribution shifts, which are quite common in practice. In this paper, we investigate the unstable reasons and find that the batch norm layer is a crucial factor hindering TTA stability. Conversely, TTA can perform more stably with batch-agnostic norm layers, \ie, group or layer norm. However, we observe that TTA with group and layer norms does not always succeed and still suffers many failure cases. By digging into the failure cases, we find that certain noisy test samples with large gradients may disturb the model adaption and result in collapsed trivial solutions, \ie, assigning the same class label for all samples. To address the above collapse issue, we propose a sharpness-aware and reliable entropy minimization method, called SAR, for further stabilizing TTA from two aspects: 1) remove partial noisy samples with large gradients, 2) encourage model weights to go to a flat minimum so that the model is robust to the remaining noisy samples. Promising results demonstrate that SAR performs more stably over prior methods and is computationally efficient under the above wild test scenarios.
연구 동기 및 목표
- 현실적이고 거친 테스트 설정에서 TTA의 안정성 문제를 동기부여하고 분석한다.
- 배치 정규화를 TTA의 안정성에 대한 주요 장애물로 확인하고 배치 불가지_norm( GN/LN )을 평가한다.
- 노이즈 샘플을 필터링하고 안정적인 온라인 적응을 위한 평탄한 최소값을 강제하는 강건한 최적화 프레임워크(SAR)를 개발한다.
- 다양한 거친 시나리오에서 ImageNet-C에서 정규화 계층의 효과를 실증적으로 검증하고 SAR를 최신 TTA 방법과 비교한다.
제안 방법
- BN이 작은 배치와 분포 전이에 의해 편향된 평균/분산 추정으로 인해 안정적인 TTA를 방해한다고 주장한다.
- 정규화 계층을 조사하고 TTA를 위해 배치 불가지_norm(GN/LN)을 사용할 것을 제안한다.
- 엔트로피 E(x;Θ)가 임계값 E0 이하인 샘플을 선택적으로 사용하여 신뢰할 수 있는 엔트로피 최소화를 구현한다.
- 샤프니스-어웨어 엔트로피 최소화 E^SA를 정의하여 반경 ρ 이내에서 엔트로피의 최대 변화로 최소화를 달성해 평탄한 최소값을 유도한다.
- 샘플 S(x)가 엔트로피에 따라 신뢰할 수 있는 샘플을 선택하고 붕괴가 탐지되면 모델 복구 스킴으로 재설정하는 이분 최적화를 사용한다.
- 효율성을 위해 GN/LN 계층의 어파인 매개변수에 한해 매개변수 업데이트를 수행하는 Tent/EATA 설정을 따른다.
- SAR를 MEMO, DDA, Tent, EATA와 비교하여 ImageNet-C에서 혼합 시프트, 작은 배치 크기, 온라인 레이블 불균형 하에서 평가한다.
실험 결과
연구 질문
- RQ1Wil드 테스트 조건에서 정규화 선택(BN, GN, LN)이 온라인 TTA의 안정성에 어떤 영향을 미치는가?
- RQ2GN/LN 기반 TTA에서 모델 붕괴와 불안정성을 극복하는 단일하고 효율적인 온라인 최적화가 가능한가?
- RQ3고 gradien t/노이즈 샘플을 선택적으로 필터링하고 평탄한 최소값을 촉진하는 것이 엔트로피 기반 TTA 방법의 강건성을 향상시키는가?
- RQ4SAR가 혼합 시프트, 작은 배치 크기, 온라인 불균형 레이블 시프트에서 최신 TTA 방법에 비해 어떤 성능을 보이는가?
주요 결과
- 배치 불가지(norm) 계층인 GN/LN은 거친 테스트 시나리오에서 BN보다 TTA에 더 안정적이지만 여전히 실패 사례가 있다.
- SAR은 엔트로피를 기반으로 고gradients/노이즈 샘플을 제거하고 적응 중 샤프니스-어웨어(평탄한) 최소값을 강제함으로써 안정성을 높인다.
- GN 및 LN을 사용하는 SAR은 MEMO, DDA, Tent 및 EATA와 비교해 온라인 불균형 레이블 시프트를 포함한 ImageNet-C 혼합에서 경쟁력 있는 또는 우수한 정확도를 달성한다.
- 혼합 손상에서 심각도 5와 3 수준에서 SAR은 GN 및 LN 모델에 대해 평가된 방법 중 평균 정확도가 가장 높다.
- 배치 크기가 1일 때 SAR은 여러 손상 타입과 모델에서 가장 좋은 결과를 내는 경우가 많으며, MEMO와 DDA는 여전히 계산적으로 더 많은 부담이 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.