[논문 리뷰] WinCLIP: Zero-/Few-Shot Anomaly Classification and Segmentation
WinCLIP은 윈도우 기반 CLIP(WinCLIP)을 제로-/적은 샷 이상탐지 분류 및 분할에 도입하고, WinCLIP+는 소수의 정상 참조를 활용합니다; 두 방법 모두 MVTec-AD와 VisA에서 태스크-특정 튜닝 없이도 최첨단을 능가합니다.
Visual anomaly classification and segmentation are vital for automating industrial quality inspection. The focus of prior research in the field has been on training custom models for each quality inspection task, which requires task-specific images and annotation. In this paper we move away from this regime, addressing zero-shot and few-normal-shot anomaly classification and segmentation. Recently CLIP, a vision-language model, has shown revolutionary generality with competitive zero-/few-shot performance in comparison to full-supervision. But CLIP falls short on anomaly classification and segmentation tasks. Hence, we propose window-based CLIP (WinCLIP) with (1) a compositional ensemble on state words and prompt templates and (2) efficient extraction and aggregation of window/patch/image-level features aligned with text. We also propose its few-normal-shot extension WinCLIP+, which uses complementary information from normal images. In MVTec-AD (and VisA), without further tuning, WinCLIP achieves 91.8%/85.1% (78.1%/79.6%) AUROC in zero-shot anomaly classification and segmentation while WinCLIP+ does 93.1%/95.2% (83.8%/96.4%) in 1-normal-shot, surpassing state-of-the-art by large margins.
연구 동기 및 목표
- 비주얼 결함의 희소성과 롱테일 문제를 해결하기 위해 제로-/적은 샷 이상 탐지 및 분할을 가능하게 한다.
- 언어 구동 프롬프트를 가진 비전-언어 모델(CLIP)을 활용하여 정상/비정상 상태를 정의한다.
- 작업별 튜닝 없이 픽셀 수준의 이상 분할을 가능하게 하는 윈도우 기반 특징 추출 및 다중 스케일 집계를 개발한다.
- 간단한 참조 연결 메커니즘을 통해 성능을 더욱 향상시키기 위해 정상 참조 이미지를 몇 장 도입한다.
제안 방법
- 상태 단어(state words)와 템플릿을 사용하여 강건한 이진 프롬프트(normal vs. anomalous)로 구성 프롬프트 앙상블(CPE)을 도입한다.
- WinCLIP: 텍스트에 정렬된 다중 스케일 윈도우/패치 특징을 추출하고 집계하는 Window-based CLIP으로 제로샷 이상 탐지 분할을 수행한다.
- 조화로운 집계(harmonic aggregation)와 다중 스케일 융합을 적용해 윈도우 수준 점수에서 밀도 높은 이상 맵을 생성한다.
- WinCLIP+는 정상 참조 이미지를 사용하여 다중 스케일 특징 메모리를 형성하고 언어 가이드 신호와 시각적 신호를 결합하여 몇 개의 정상 샷에서 이상 인식 성능을 향상시킨다.
- 간단한 참조 연결 메커니즘을 정의하여 언어 가이드 예측과 메모리 기반 시각 예측을 across 스케일에서 융합한다.
실험 결과
연구 질문
- RQ1CLIP 기반의 언어 프롬프트를 제로-/적은 샷 이상 탐지 및 분할을 효과적으로 수행하도록 설계할 수 있는가?
- RQ2윈도우 기반의 다중 스케일 특징 추출 방식이 언어와의 정렬을 개선하고 미세 조정 없이 픽셀 수준의 이상 분할을 가능하게 하는가?
- RQ3몇 장의 정상 참조 이미지를 통해 간단한 메모리 기반 연관 메커니즘으로 제로-/적은 샷 이상 탐지 성능을 더 향상시킬 수 있는가?
주요 결과
- WinCLIP은 작업별 튜닝 없이도 MVTec-AD와 VisA에서 강력한 제로샷 이상 분류 및 분할을 달성한다(AC: 0-shot; AS: 0-shot).
- 상태 단어와 템플릿을 이용한 구성 프롬프트 앙상블(CPE)이 순진한 CLIP 프롬프트 대비 제로샷 이상 분류를 크게 향상시킨다.
- WinCLIP은 윈도우 기반 특징 추출(F^W)을 도입하여 픽셀 수준의 이상 분할에 적합한 밀도 높은 언어 정렬 특징을 산출하고, 패치 토큰 및 이미지 타일링 기반 baselines를 능가한다.
- 중첩 윈도우에 대한 조화적 집계와 다중 스케일 융합은 크기가 다양한 결함에 대한 분할 견고성을 개선한다.
- WinCLIP+는 참조 연관 메모리를 통해 정상 참조 이미지를 활용하여 1-~4샷 설정에서 이상 분류 및 분할을 추가로 향상시키고, 기존의 몇-shot 방법들을 능가한다.
- 표 전체에서 WinCLIP/WinCLIP+는 MVTec-AD 및 VisA의 AC 및 AS 지표에서 최첨단 방법을 큰 폭으로 능가하며 제로샷 및 소수샷 설정에서도 경우에 따라 전체 샷의 기준에 근접한 성능을 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.