[논문 리뷰] Towards Generic Anomaly Detection and Understanding: Large-scale Visual-linguistic Model (GPT-4V) Takes the Lead
본 논문은 이미지, 비디오, 포인트 클라우드, 시계열 데이터에 걸친 일반적 다중 모달 이상 탐지기로서 GPT-4V를 평가하고, 클래스 정보, 전문가 정보, 참조 정보를 포함한 프롬프트 전략을 사용하여 정상 패턴과 이상 패턴을 식별한다.
Anomaly detection is a crucial task across different domains and data types. However, existing anomaly detection models are often designed for specific domains and modalities. This study explores the use of GPT-4V(ision), a powerful visual-linguistic model, to address anomaly detection tasks in a generic manner. We investigate the application of GPT-4V in multi-modality, multi-domain anomaly detection tasks, including image, video, point cloud, and time series data, across multiple application areas, such as industrial, medical, logical, video, 3D anomaly detection, and localization tasks. To enhance GPT-4V's performance, we incorporate different kinds of additional cues such as class information, human expertise, and reference images as prompts.Based on our experiments, GPT-4V proves to be highly effective in detecting and explaining global and fine-grained semantic patterns in zero/one-shot anomaly detection. This enables accurate differentiation between normal and abnormal instances. Although we conducted extensive evaluations in this study, there is still room for future evaluation to further exploit GPT-4V's generic anomaly detection capacity from different aspects. These include exploring quantitative metrics, expanding evaluation benchmarks, incorporating multi-round interactions, and incorporating human feedback loops. Nevertheless, GPT-4V exhibits promising performance in generic anomaly detection and understanding, thus opening up a new avenue for anomaly detection.
연구 동기 및 목표
- 모달리티별 특정 방법을 넘어선 일반적이고 높은 차원의 이상 탐지 접근 방식의 동기를 제공한다.
- GPT-4V와 같은 대형 시각-언어 모델이 이미지, 비디오, 포인트 클라우드, 시계열 데이터에서 이상을 탐지할 수 있는지 조사한다.
- 제로샷 및 원샷 성능에 미치는 프롬프트, 보조 단서, 참조가 어떤 영향을 미치는지 평가한다.
- 산업, 의료, 논리 및 교통 시나리오에서의 질적 시연을 통해 능력과 한계를 이해한다.
제안 방법
- GPT-4V를 안내하기 위한 네 가지 프롬프트 유형 설계: 작업 정보(Task Information), 클래스 정보(Class Information), 정상 표준(Normal Standard), 참조 이미지(Reference Image) 프롬프트.
- 다양한 모달리티(이미지, 비디오, 포인트 클라우드, 시계열)와 도메인(산업, 의료, 감시)에서 GPT-4V를 평가한다.
- 정상 참조 이미지의 유무에 따른 제로샷 및 원샷 설정을 사용하여 로버스트니스와 프롬프트의 영향을 연구한다.
- 로컬라이제이션 작업을 위한 시각 프롬팅 접근법을 활용하여 마스크를 변환하거나 가이드하고 SoM과 유사한 전략을 사용해 로컬화된 영역을 분류한다.
- 포인트 클라우드에서는 데이터를 다중 뷰 깊이 이미지로 변환하여 이미지 기반 foundation-model 프롬 prompting(CPMF에서 영감을 받음)과의 정렬을 달성한다.
- 정성적 사례 시연과 강점·한계 분석을 포함하고, 향후 정량적 평가 및 인간-in-the-loop 개선을 위한 권고를 제시한다.

실험 결과
연구 질문
- RQ1GPT-4V가 제로샷 및 원샷 설정에서 여러 모달리티(이미지, 비디오, 포인트 클라우드, 시계열)에 걸쳐 이상 탐지를 수행할 수 있는가?
- RQ2작업 프롬프트, 클래스 프롬프트, 정상 표준, 참조 이미지 등 다양한 프롬프트가 GPT-4V의 이상 탐지 및 설명 능력에 어떤 영향을 미치는가?
- RQ3전.global vs. 미세한 수준의 이상 이해와 로컬화에서 GPT-4V의 능력과 한계는 무엇인가?
- RQ4산업, 의료 및 감시 작업에 GPT-4V를 적용하기 위한 실용적 지침과 향후 방향은 무엇인가?
주요 결과
- GPT-4V는 제로샷 및 원샷 조건에서 다모달 및 다도메인 작업에서 강력한 이상 탐지 능력을 보여준다.
- GPT-4V는 전역적 의미와 미세한 의미를 모두 이해하여 이상을 탐지하고 로컬화할 수 있으며, 산업 이미지에서의 정밀 로컬라이제이션 예시를 제공한다.
- GPT-4V는 복잡한 정상 표준에 대해 자동으로 추론하고 탐지된 이상에 대한 설명을 생성할 수 있다.
- 추가 프롬프트(클래스 정보, 인간 전문가, 참조 이미지)가 이상 탐지 성능을 향상시킨다.
- 평가의 질적 특성과 도메인 특수 제약으로 인해 실세계 적용은 도전적이지만, 다양한 시나리오에서 GPT-4V의 가능성을 보여준다.
![Figure 2 : Industrial Image Anomaly Detection: Case 1, zero-shot, the Bottle category of MVTec AD [ 6 ] . Yellow highlights the given class information and normal and abnormal state descriptions. Green , red , and blue highlight the expected, incorrect, and additional information outputted by GPT-4V](https://ar5iv.labs.arxiv.org/html/2311.02782/assets/figure/Industrial-AD/industrial-ad-case1-zero-shot.png)
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.