QUICK REVIEW

[논문 리뷰] When, Where, and What? A New Dataset for Anomaly Detection in Driving Videos

Yu Yao, Xizi Wang|arXiv (Cornell University)|2020. 04. 06.

Anomaly Detection Techniques and Applications참고 문헌 46인용 수 38

한 줄 요약

DoTA 데이터셋은 시간적·공간적·범주적 주석을 갖춘 자기 중심 트래픽 비디오 악용 탐지를 위한 데이터셋을 도입하고, VAD 성능 평가를 보다 잘 반영하는 STAUC 시공간 평가 지표를 제안한다.

ABSTRACT

Video anomaly detection (VAD) has been extensively studied. However, research on egocentric traffic videos with dynamic scenes lacks large-scale benchmark datasets as well as effective evaluation metrics. This paper proposes traffic anomaly detection with a extit{when-where-what} pipeline to detect, localize, and recognize anomalous events from egocentric videos. We introduce a new dataset called Detection of Traffic Anomaly (DoTA) containing 4,677 videos with temporal, spatial, and categorical annotations. A new spatial-temporal area under curve (STAUC) evaluation metric is proposed and used with DoTA. State-of-the-art methods are benchmarked for two VAD-related tasks.Experimental results show STAUC is an effective VAD metric. To our knowledge, DoTA is the largest traffic anomaly dataset to-date and is the first supporting traffic anomaly studies across when-where-what perspectives. Our code and dataset can be found in: https://github.com/MoonBlvd/Detection-of-Traffic-Anomaly

연구 동기 및 목표

이상 현상의 when-where-what 분석을 지원하는 대규모 자가 중심 트래픽 비디오 데이터셋을 제공한다.
운전 이상 현상을 위한 풍부한 시간적, 공간적, 범주적 주석을 도입한다.
이상 현상의 시공간적 로컬라이제이션을 평가하는 STAUC 지표를 제안한다.
DoTA 데이터셋에서 기존 VAD 및 VAR 방법을 벤치마크하여 기준선을 확립한다.
프레임 수준의 외관 정보와 객체 중심 단서를 결합한 앙상블 접근법의 이점을 조사한다.

제안 방법

주석 생성을 위한 4,677개 비디오를 1280x720 해상도 및 10 fps로 추출하는 데이터셋 구축.
이상 유형(자가/비자가 분할 후 18개 범주), 시간 시작/종료, 프레임별 이상 객체 트랙렛 등 풍부한 주석.
When-Where-What 파이프라인의 정의와 VAD를 프레임별 이상 점수와 객체별 이상 점수 예측으로 프레이밍.
주석된 이상 영역과의 중첩으로 진정양성(True Positive)을 가중하는 시공간 확장 AUC인 STAUC의 도입.
DoTA에서 비지도 프레임 수준 VAD, 비지도 객체 중심 VAD, 지도 기반 VAD 방법의 벤치마킹.
DoTA에서 VAR 방법(C3D, I3D, R3D, MC3D, R(2+1)D, TSN, SlowFast)의 벤치마킹.

실험 결과

연구 질문

RQ1대규모의 자가 중심 운전 비디오 데이터셋이 언제-어디서-무엇 분석을 포괄적으로 지원할 수 있는가?
RQ2STAUC 지표가 운전 비디오의 VAD 평가에서 AUC보다 더 유의미한 평가자 인가?
RQ3DoTA에서 최신 VAD 방법들이 AUC와 STAUC 둘 다에서 어떻게 성능을 발휘하는가?
RQ4DoTA에서 VAR 방법은 운전 이상에 대해 어떻게 수행되며 도전 과제는 무엇인가?
RQ5프레임 수준의 외관 정보와 객체 중심 단서를 결합한 앙상블 학습이 VAD 성능을 향상시키는가?

주요 결과

DoTA는 시간적, 공간적, 범주적 주석을 포함한 언제-어디서-무엇 분석을 위한 현재까지의 가장 큰 트래픽 이상 데이터셋이다.
STAUC는 일반적으로 AUC보다 우수한 성능을 보이며 이상 영역의 로컬라이제이션을 더 잘 반영한다.
프레임 수준의 외관 단서와 객체 중심 단서를 결합한 앙상블 방법이 테스트된 VAD 접근법 중에서 최적의 AUC와 STAUC를 달성한다.
지도 기반 VAR 모델은 비지도 VAD보다 더 높은 AUC를 달성하지만 DoTA에서 VAR의 전반적 정확도는 여전히 어려움을 보이며 클래스별 변동성이 둘째로 큰 편이다.
프레임 수준의 VAD와 객체 중심 VAD 방법은 서로 부분적으로 보완할 수 있으며, 전경 중심 버전이 공간적 로컬라이제이션을 개선한다.
DoTA 벤치마크는 트래픽 이상 이해가 여전히 어려움으로 남아 추가 연구가 필요함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.