[논문 리뷰] Random Word Data Augmentation with CLIP for Zero-Shot Anomaly Detection
제로샷이면서 카테고리 무관한 이상 탐지기를 다양하게 생성된 CLIP 텍스트 임베딩으로 학습하고, 추론 시 대상 객체 프롬프트의 필요성을 없애며, 여러 벤치마크에서 프롬프트 앙상블 baselines를 능가하거나 이를 따라잡습니다.
This paper presents a novel method that leverages a visual-language model, CLIP, as a data source for zero-shot anomaly detection. Tremendous efforts have been put towards developing anomaly detectors due to their potential industrial applications. Considering the difficulty in acquiring various anomalous samples for training, most existing methods train models with only normal samples and measure discrepancies from the distribution of normal samples during inference, which requires training a model for each object category. The problem of this inefficient training requirement has been tackled by designing a CLIP-based anomaly detector that applies prompt-guided classification to each part of an image in a sliding window manner. However, the method still suffers from the labor of careful prompt ensembling with known object categories. To overcome the issues above, we propose leveraging CLIP as a data source for training. Our method generates text embeddings with the text encoder in CLIP with typical prompts that include words of normal and anomaly. In addition to these words, we insert several randomly generated words into prompts, which enables the encoder to generate a diverse set of normal and anomalous samples. Using the generated embeddings as training data, a feed-forward neural network learns to extract features of normal and anomaly from CLIP's embeddings, and as a result, a category-agnostic anomaly detector can be obtained without any training images. Experimental results demonstrate that our method achieves state-of-the-art performance without laborious prompt ensembling in zero-shot setups.
연구 동기 및 목표
- 추론 시 객체-카테고리 프롬프트가 필요 없는 카테고리 무관한 이상 탐지를 동기화한다.
- CLIP을 데이터 소스로 활용하여 정상/이상 샘플 간의 다양한 학습 임베딩을 생성한다.
- 프롬프트 앙상블의 노동 집약적 과정을 제거하기 위해 무작위 단어 데이터 증강으로 견고한 탐지기를 만든다.
- 표준 AD 벤치마크(MVTec-AD, VisA)와 실제 세계의 다양한 이상 데이터셋(SewerML)에서 경쟁력 있는 제로샷 성능을 증명한다.
제안 방법
- CLIP 기반 이상 점수를 안내하기 위해 정상 및 이상 단어를 사용하는 이진 프롬프트 템플릿을 사용한다.
- 프롬프트에 임의로 생성된 단어를 삽입하여 정상/이상 샘플에 대한 다양한 임베딩 쌍을 생성하는 무작위 단어 데이터 증강을 도입한다.
- 객체 특유의 학습 이미지 없이 CLIP 텍스트 임베딩으로 4계층 피드포워드 네트워크(FNN)를 학습하여 정상 대 이상을 분류한다.
- 학습된 FNN의 이미지 임베딩에서 이상 점수를 얻고, 필요 시 CLIP의 이미지 인코더 기반 임베딩 점수와 결합한다.
- 알려지지 않은 객체 설정과 알려진 객체 설정에서 제로샷 성능을 평가하고, 다른 CLIP 기반 점수(s_pr, s_img)와의 조합을 탐색한다.
- 노동 집약적 프롬프팅을 피하기 위해 프롬프트 앙상블을 학습 루프에서 배제하고도 강력한 제로샷 결과를 달성한다.
실험 결과
연구 질문
- RQ1CLIP을 학습 데이터 소스로 사용하여 추론 시 대상 객체 정보 없이도 작동하는 카테고리 무관한 이상 탐지기를 구축할 수 있는가?
- RQ2무작위 단어 데이터 증강이 미지의 객체 범주에서 정상 대 이상 샘플을 구분할 만큼 임베딩의 다양성을 제공하는가?
- RQ3제안된 방법은 표준 AD 벤치마크에서 제로샷 설정에서 프롬프트 가이드 AD 방법 및 프롬프트 앙상블 베이스라인과 어떻게 비교되는가?
- RQ4무작위 프롬프트 쌍의 수(N_p)와 단어 선택이 제로샷 성능에 어떤 영향을 미치는가?
주요 결과
- 제안된 방법은 MVTec-AD와 VisA에서 경쟁력 있는 제로샷 성능을 달성하며, 종종 미지의 객체 설정에서 CLIP 기반 프롬프트 가이드 AD와 WinCLIP를 능가한다.
- CLIP + 본 방법은 제로샷 미지의 객체 설정에서 CLIP 단독보다 일관되게 성능을 향상시키며, 객체 범주가 명시되지 않을 때 특히 큰 이점을 보인다.
- 무작위 단어 데이터 증강은 다양한 임베딩을 제공하여 객체 특정 학습 데이터 없이도 카테고리 무관한 FNN이 이상을 탐지할 수 있게 한다.
- SewerML에서 본 방법은 프롬프트 가이드 AD 없이도 세 방법 중 최고 성능을 달성하여 다양한 결함에 대한 강건성을 강조한다.
- 최적 성능은 N_p = 10,000 훈련 쌍에서 관찰되며, 너무 적거나 너무 많으면 과소적합/과적합으로 성능이 저하될 수 있다.
- 이 방법은 데이터셋 전반에서 강한 AUROC, AUPR, F1-max를 달성하고, CLIP + 본 방법의 조합이 제로샷 평가에서 종종 최고 점수를 얻는다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.