[논문 리뷰] VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video Anomaly Detection
VadCLIP은 고정된 CLIP 모델과 이중 분기 설계를 활용하여 약한 지도 학습 비디오 이상 탐지를 위해 거친 분류와 미세한 비전-언어 정렬을 모두 수행하고, XD-Violence와 UCF-Crime에서 최첨단 결과를 달성한다.
The recent contrastive language-image pre-training (CLIP) model has shown great success in a wide range of image-level tasks, revealing remarkable ability for learning powerful visual representations with rich semantics. An open and worthwhile problem is efficiently adapting such a strong model to the video domain and designing a robust video anomaly detector. In this work, we propose VadCLIP, a new paradigm for weakly supervised video anomaly detection (WSVAD) by leveraging the frozen CLIP model directly without any pre-training and fine-tuning process. Unlike current works that directly feed extracted features into the weakly supervised classifier for frame-level binary classification, VadCLIP makes full use of fine-grained associations between vision and language on the strength of CLIP and involves dual branch. One branch simply utilizes visual features for coarse-grained binary classification, while the other fully leverages the fine-grained language-image alignment. With the benefit of dual branch, VadCLIP achieves both coarse-grained and fine-grained video anomaly detection by transferring pre-trained knowledge from CLIP to WSVAD task. We conduct extensive experiments on two commonly-used benchmarks, demonstrating that VadCLIP achieves the best performance on both coarse-grained and fine-grained WSVAD, surpassing the state-of-the-art methods by a large margin. Specifically, VadCLIP achieves 84.51% AP and 88.02% AUC on XD-Violence and UCF-Crime, respectively. Code and features are released at https://github.com/nwpu-zxr/VadCLIP.
연구 동기 및 목표
- 대형 비전-언어 사전학습(CLIP)을 약한 지도 비디오 이상 탐지(WSVAD)로 재적합(fine-tuning 없이)하는 방법을 탐구한다.
- 크고 작은 타임-적/의미 정보를 교차 모달 큐를 사용하여 포착한다.
- 약한 감독하에서 CLIP의 성능을 유지하면서 비전-언어 연관성을 활용한다.
제안 방법
- Local-Global Temporal Adapter (LGT-Adapter)를 도입하여 로컬 및 글로벌 시간 의존성을 효율적으로 모델링한다.
- 이중 분기 아키텍처를 배치한다: C-Branch는 거친-세분 이진 이상 탐지를 담당하고 A-Branch는 CLIP의 텍스트 인코더를 사용한 미세한 비전-언어 정렬을 담당한다.
- 학습 가능한 프롬프트와 이상 중심 시각 프롬프트를 사용하여 CLIP 내의 텍스트 레이블과 시각 컨텍스트를 적응시킨다.
- MIL-Align를 적용하여 약한 감독 하에서 프레임-수준 정렬을 최적화하고 라벨당 상위-K 프레임-텍스트 매치를 선택한다.
- CLIP 이미지 및 텍스트 인코더를 고정시키고, 역전파를 어댑터 및 프롬프트 모듈로 흐르게 한다.
- 세 가지 손실을 결합한다: 비디오 수준 예측에 대한 이진 교차 엔트로피, MIL 기반 정렬 손실, 정상/비정상 클래스 임베딩 간 대조 손실.
실험 결과
연구 질문
- RQ1CLIP을 Backbone 재학습 없이 효과적으로 약한 지도 비디오 이상 탐지에 적용하는 방법은 무엇인가?
- RQ2거친-세분 분류와 미세한 비전-언어 정렬을 모두 활용하는 이중 분기 아키텍처가 WSVAD를 개선할 수 있는가?
- RQ3프롬프트, 프롬프트+시각 프롬프트, LGT-Adapter 중 어떤 메커니즘이 약한 감독 하에서 CLIP 지식을 WSVAD으로 가장 잘 전이시키는가?
- RQ4약한 감독 하에서의 비전-언어 정렬을 최적화하여 사전학습 지식을 보존하면서 이상을 구분하는 방법은 무엇인가?
주요 결과
- VadCLIP은 XD-Violence에서 84.51% AP, UCF-Crime에서 88.02% AUC를 달성하여 두 벤치마크 모두에서 새로운 최첨단을 수립한다.
- 이중 분기 설계로 단일 모델 내에서 거친-세분 WSVAD를 모두 달성할 수 있다.
- CLIP 지식을 WSVAD로 이전하는 데 학습 가능한 프롬프트가 수작업 프롬프트보다 우수하다.
- 이상 중심 시각 프롬프트와 LGT-Adapter가 시간적 모델링 및 정렬 성능을 크게 향상시킨다.
- MIL-Align 및 교차 모달 정렬을 통해 미세한-대-거친 성능이 향상되면서 CLIP은 고정된 상태를 유지.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.