[논문 리뷰] Learning Memory-guided Normality for Anomaly Detection
비지도 학습 기반의 비디오 이상 탐지 방법으로 기억 모듈을 사용해 다수의 전형(normal) 패턴을 저장하고 특징 간결성 손실 및 구분성 손실을 통해 학습하며, 이상치로부터의 학습을 방지하는 가중치가 적용된 메모리 업데이트 스킴으로 최첨단 결과를 달성한다.
We address the problem of anomaly detection, that is, detecting anomalous events in a video sequence. Anomaly detection methods based on convolutional neural networks (CNNs) typically leverage proxy tasks, such as reconstructing input video frames, to learn models describing normality without seeing anomalous samples at training time, and quantify the extent of abnormalities using the reconstruction error at test time. The main drawbacks of these approaches are that they do not consider the diversity of normal patterns explicitly, and the powerful representation capacity of CNNs allows to reconstruct abnormal video frames. To address this problem, we present an unsupervised learning approach to anomaly detection that considers the diversity of normal patterns explicitly, while lessening the representation capacity of CNNs. To this end, we propose to use a memory module with a new update scheme where items in the memory record prototypical patterns of normal data. We also present novel feature compactness and separateness losses to train the memory, boosting the discriminative power of both memory items and deeply learned features from normal data. Experimental results on standard benchmarks demonstrate the effectiveness and efficiency of our approach, which outperforms the state of the art.
연구 동기 및 목표
- 이상 데이터가 없는 상태에서 영상의 이상 탐지를 다룬다.
- 전형적 특징의 기억을 활용해 정상 패턴의 다양성을 명시적으로 모델링한다.
- 메모리를 통해 CNN의 재구성/예측 능력을 제한해 정상 패턴에 집중하도록 한다.
- 이상 프레임 학습을 피하도록 안정적인 기억 업데이트 규칙을 제안한다.
- 표준 벤치마크에서 최첨단 성능을 입증한다.
제안 방법
- 각 항목이 전형적 정상 패턴을 기록하는 M개의 아이템을 갖는 기억 모듈을 도입한다.
- 퍼픽셀 쿼리를 생성하기 위해 인코더(U-Net)를 사용하고, 코사인 유사도를 통해 기억을 읽어 재구성/예측을 위한 업데이트된 특징을 얻는다.
- hat{p}_t^k를 기억 항목의 가중합으로 형성하는 읽기 단계를 계산하고; 디코딩을 위해 q_t와 연결(concatenate)한다.
- 각 아이템에 할당된 쿼리를 사용해 기억 항목을 업데이트하고, v_t^k,m가 가중 업데이트를 안내하며; 정상 프레임에 업데이트를 집중시키기 위해 정규화를 적용한다.
- 재구성 손실, 특징 간결성 손실(q_t^k가 가장 가까운 기억 아이템에 가까워지도록), 그리고 특징 구분성 손실(여유 마진으로 두 번째로 가까운 아이템을 멀어지게 하는)을 이용해 학습한다.
- 테스트 시에 이상 프레임에서 기억 업데이트를 방지하기 위해 가중된 일반 점수 E_t를 계산하고; PSNR 기반 재구성 품질과 기억 기반 차이를 결합한 이상 점수 S_t를 도출한다.
실험 결과
연구 질문
- RQ1메모리 기반 표현이 영상 프레임의 정상 패턴 다양성을 포착하여 이상 탐지를 향상시킬 수 있는가?
- RQ2메모리 항목과 쿼리 사이에서 간결성과 구분성을 모두 강제하는 것이 더 구분력 있는 정상 패턴 프로토타입으로 이어지는가?
- RQ3테스트 중에 이상 프레임을 흡수하지 않도록 기억 업데이트를 조건화하면서도 성능을 유지할 수 있는가?
- RQ4표준 벤치마크(Ped2, Avenue, ShanghaiTech)에서 메모리 가이드 이상 탐지가 AUC 측면에서 최첨단 방법에 비해 어떤 성능을 보이는가?
- RQ5재구성 기반 신호와 기억 기반 신호 간의 이상 점수 부여에서의 트레이드오프는 무엇인가?
주요 결과
| 방법 | Ped2 [21] | Avenue [24] | Shanghai [26] |
|---|---|---|---|
| Ours-R w/o Mem. | 86.4 | 80.6 | 65.8 |
| Ours-R w/ Mem. | 90.2 | 82.8 | 69.8 |
| Frame-Pred (Pred.) | 95.4 | 85.1 | 72.8 |
| Ours-P w/o Mem. | 94.3 | 84.5 | 66.8 |
| Ours-P w/ Mem. | 97.0 | 88.5 | 70.5 |
- 메모리 보강 모델이 예측 작업을 포함할 때 메모리를 사용할 경우 Ped2(97.0)와 Avenue(88.5)에서 최고 AUC를 달성하여 기준선을 능가한다.
- 메모리 사용은 Ped2, Avenue, ShanghaiTech 전반에서 일관된 향상을 보이며(예: Ours-P w/ Mem.는 각각 97.0, 88.5, 70.5를 달성).
- 특징 구분성 손실은 성능을 크게 향상시키며(예: 제거 실험에서 구분성 추가 시 AUC가 3.8pp 증가).
- 가중된 일반 점수를 통해 정상 프레임으로만 기억을 업데이트하면 이상 탐지 성능이 향상된다.
- 본 방법은 약 67fps의 고속으로 실행되며 Flow 기반 또는 적대적 방식에 비해 우수한 정확도-실행 시간 트레이드오프를 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.