[논문 리뷰] LoCoOp: Few-Shot Out-of-Distribution Detection via Prompt Learning
LoCoOp은 CLIP 프롬프트를 활용하여 로컬-정규화된 컨텍스트 최적화를 도입해 소수-shot OOD 탐지를 수행하고, 학습 중 CLIP 로컬 피처를 OOD 단서로 다룸으로써 OOD 구분을 개선합니다. 이미지넷 기반 벤치마크에서 제로샷, 전적감독 및 기존 프롬프트 학습 방법들을 능가하며, 클래스당 한 샷일 때도 우수한 성능을 보입니다.
We present a novel vision-language prompt learning approach for few-shot out-of-distribution (OOD) detection. Few-shot OOD detection aims to detect OOD images from classes that are unseen during training using only a few labeled in-distribution (ID) images. While prompt learning methods such as CoOp have shown effectiveness and efficiency in few-shot ID classification, they still face limitations in OOD detection due to the potential presence of ID-irrelevant information in text embeddings. To address this issue, we introduce a new approach called Local regularized Context Optimization (LoCoOp), which performs OOD regularization that utilizes the portions of CLIP local features as OOD features during training. CLIP's local features have a lot of ID-irrelevant nuisances (e.g., backgrounds), and by learning to push them away from the ID class text embeddings, we can remove the nuisances in the ID class text embeddings and enhance the separation between ID and OOD. Experiments on the large-scale ImageNet OOD detection benchmarks demonstrate the superiority of our LoCoOp over zero-shot, fully supervised detection methods and prompt learning methods. Notably, even in a one-shot setting -- just one label per class, LoCoOp outperforms existing zero-shot and fully supervised detection methods. The code will be available via https://github.com/AtsuMiyai/LoCoOp.
연구 동기 및 목표
- 소수 샷 설정에서 기존 제로샷 및 전적으로 감독된 OOD 탐지 방법의 한계를 동기부여하고 해결한다.
- 프롬프트 학습 중에 CLIP의 로컬 피처를 활용해 ID-관련되지 않은 영역을 식별하고 정규화한다.
- CoOp 스타일 프롬프트와 호환되는 간단하고 효율적인 OOD 정규화 기법을 개발해 ID/OOD 구분을 향상한다.
- 다양한 샷 설정에서 대규모 ImageNet OOD 벤치마크에서 강력한 성능 향상을 입증한다.
제안 방법
- LoCal 정규화된 Context Optimization(LoCoOp)을 채택해 CLIP 로컬 피처를 OOD 단서로 사용하여 OOD 정규화를 수행한다.
- 지역별 정렬(rank-based top-K 방식)을 이용해 CLIP 로컬 피처와 ID 클래스 텍스트 임베딩 간의 영역별 정합성을 평가하여 ID-무관한(배경) 영역을 식별한다.
- 예측된 영역 점수에 대해 엔트로피 최대화를 OOD 정규화 손실로 적용해 ID-무관한 영역을 ID 텍스트 임베딩으로부터 멀어지게 한다.
- 전체 이미지에 대한 표준 CoOp 손실과 OOD 정규화 항을 결합한다(L = L_CoOp + lambda * L_OOD).
- 테스트 시에는 최종 OOD 탐지를 위해 MCM 및 GL-MCM 점수(전역 및 로컬 피처)를 사용한다.
실험 결과
연구 질문
- RQ1LoCoOp가 로컬 피처를 이용한 ID-무관 영역 정규화를 통해 소수 샷 CLIP 기반 OOD 탐지를 향상시킬 수 있는가?
- RQ2ID-무관 영역의 랭크 기반 식별이 다른 임계값 전략과 비교해 OOD 구별에 어떤 영향을 미치는가?
- RQ3하이퍼파라미터 K(상위-K 영역)와 lambda(OOD 손실 가중치)의 OOD 성능에 대한 영향은 무엇인가?
- RQ4LoCoOp는 ImageNet 기반 OOD 벤치마크에서 제로샷, 전적감독 및 다른 프롬프트 학습 기반 방법들과 어떻게 비교되는가?
주요 결과
| Method | iNaturalist FPR95 | iNaturalist AUROC | SUN FPR95 | SUN AUROC | Places FPR95 | Places AUROC | Texture FPR95 | Texture AUROC | Average FPR95 | Average AUROC |
|---|---|---|---|---|---|---|---|---|---|---|
| LoCoOp GL (ours) | 24.61 | 94.89 | 25.62 | 94.59 | 34.00 | 92.12 | 49.86 | 87.49 | 33.52 | 92.14 |
- GL-MCM을 활용한 LoCoOp가 ImageNet OOD 벤치마크에서 경쟁 방법들을 능가하는 우수한 OOD 탐지 성능을 보인다.
- 16샷 설정에서 LoCoOp GL은 AUROC 93.52%를 달성하며 타 방법을 모두 앞서는 성능을 보인다(다른 방법 중 92%를 넘는 방법 없음).
- 1샷 설정에서 LoCoOp GL은 강력한 평균 FPR95 및 AUROC(각각 33.52 및 92.14)를 달성하며 제로샷 및 일부 전적감독 방법을 능가한다.
- LoCoOp은 0 또는 1000과 같은 극단값을 제외하면 다양한 K 값에서 성능이 유지된다(과도하게 민감하지 않다).
- LoCoOp은 per-image 프롬프트 방식(CoCoOp 등)보다 추론 속도가 빠르고 일부 베이스라인보다 ID-정확도 트레이드오프가 좋다.
- GL-MCM과 LoCoOp를 함께 사용하면 지역 특징 정규화와 함께 MCM 대비 눈에 띄는 이득이 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.