[논문 리뷰] Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models
논문은 Zero-shot anomaly detection 및 추론을 위한 전문 시각 보조 도구 Anomaly-OV와 대규모 시각 지시 데이터셋 Anomaly-Instruct-125k, VisA-D&R 벤치마크를 소개하고 일반ist MLLMs에 비해 상당한 개선을 보여주며, 3D 및 의료 이상 탐지로 확장합니다.
Zero-Shot Anomaly Detection (ZSAD) is an emerging AD paradigm. Unlike the traditional unsupervised AD setting that requires a large number of normal samples to train a model, ZSAD is more practical for handling data-restricted real-world scenarios. Recently, Multimodal Large Language Models (MLLMs) have shown revolutionary reasoning capabilities in various vision tasks. However, the reasoning of image abnormalities remains underexplored due to the lack of corresponding datasets and benchmarks. To facilitate research in AD & reasoning, we establish the first visual instruction tuning dataset, Anomaly-Instruct-125k, and the evaluation benchmark, VisA-D&R. Through investigation with our benchmark, we reveal that current MLLMs like GPT-4o cannot accurately detect and describe fine-grained anomalous details in images. To address this, we propose Anomaly-OneVision (Anomaly-OV), the first specialist visual assistant for ZSAD and reasoning. Inspired by human behavior in visual inspection, Anomaly-OV leverages a Look-Twice Feature Matching (LTFM) mechanism to adaptively select and emphasize abnormal visual tokens. Extensive experiments demonstrate that Anomaly-OV achieves significant improvements over advanced generalist models in both detection and reasoning. Extensions to medical and 3D AD are provided for future study. The link to our project page: https://xujiacong.github.io/Anomaly-OV/
연구 동기 및 목표
- 데이터가 제한된 실제 세계 시나리오에서 제로샷 이상 탐지(ZSAD)를 동기부여합니다.
- 이상 탐지와 추론을 위한 시각 지시 튜닝 데이터셋을 만듭니다.
- 토큰 수준의 이상 전문 지식을 활용해 LLM을 안내하는 전문 시각 보조 도구(Anomaly-OV)를 개발합니다.
- 산업, 의료 및 3D 도메인 전반에서 일반ist MLLMs에 비해 탐지 및 추론이 향상됨을 보여줍니다.
제안 방법
- LLaVA-OneVision을 기본 MLLM으로 사용하고 이상 전문 지식을 도입해 토큰 선택을 안내합니다.
- Look-Twice Feature Matching (LTFM)을 구현해 글로벌 객체 임베딩과 양성/음성 이상 임베딩을 융합해 클래스 의식적 이상 설명을 생성합니다.
- Q-Former를 갖춘 Visual Token Selector (VT Selector)를 도입해 LL을 위한 의심스러운 시각 토큰을 강조하고 풀링합니다.
- 두 단계 파이프라인을 훈련합니다: (1) Anomaly-Instruct-125k에서 전문 이상 전문가 훈련, (2) 동결된 전문가 및 인코더로 시각 지시 튜닝을 하고 프로젝터와 LLM만 학습합니다.
- 이상 가능 시 의심스러운 특징을 강조하기 위해 <adv>를 포함한 인디케이션 프롬프트를 적용합니다.
- 일반화를 보여주기 위해 3D 및 의료 도메인으로 확장합니다.
실험 결과
연구 질문
- RQ1전문 이상 전문가가 일반 모델을 넘어 멀티모달 LLM에서 제로샷 이상 탐지 및 추론을 향상시킬 수 있는가?
- RQ2객체 의식 이상 임베딩과 Look-Twice Feature Matching이 탐지 정확도와 추론 품질에 어떤 영향을 미치는가?
- RQ3웹에서의 대규모 데이터(WebAD)가 제로샷 이상 탐지 성능에 어떤 영향을 주는가?
- RQ4이 접근법이 3D 및 의료 이상 탐지 설정으로도 효과적으로 확장될 수 있는가?
주요 결과
- Anomaly-OV는 이미지 수준의 이상 탐지(ZSAD) 및 텍스트 기반 이상 추론에서 고급 일반 모델보다 상당한 개선을 달성합니다.
- 이상 전문가는 WebAD 데이터를 활용해 텍스트 인코더 없이도 정상성/이상 의미를 더 잘 파악합니다.
- Look-Twice Feature Matching과 VT Selector를 통한 토큰 강조가 희소 이상 위치 추적 및 추론 정확도를 향상시킵니다.
- GPT-4o 및 기타 오픈 모델과 비교할 때 Anomaly-OV가 더 정확하고 근거 있는 이상 설명과 추론을 제공합니다.
- 3D 및 의료 도메인으로의 확장을 통해 광범위한 적용 가능성이 입증됩니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.