QUICK REVIEW

[논문 리뷰] Not only Look, but also Listen: Learning Multimodal Violence Detection under Weak Supervision

Peng Wu, Jing Liu|arXiv (Cornell University)|2020. 07. 09.

Human Pose and Action Recognition참고 문헌 49인용 수 26

한 줄 요약

이 논문은 음성-시각 입력을 사용하여 비디오 스니펫 간의 통합적, 국소적, 점수 기반 관계를 동시에 모델링하는 다중모달 딥러닝 프레임워크인 HL-Net을 제안한다. 약한 감독 하에서 최신으로 출시된 XD-Violence 데이터셋에서 SOTA 성능(78.64% AP)을 달성하여, 다중모달 융합과 약한 감독 하에서의 명시적 관계 모델링의 효과를 입증한다.

ABSTRACT

Violence detection has been studied in computer vision for years. However, previous work are either superficial, e.g., classification of short-clips, and the single scenario, or undersupplied, e.g., the single modality, and hand-crafted features based multimodality. To address this problem, in this work we first release a large-scale and multi-scene dataset named XD-Violence with a total duration of 217 hours, containing 4754 untrimmed videos with audio signals and weak labels. Then we propose a neural network containing three parallel branches to capture different relations among video snippets and integrate features, where holistic branch captures long-range dependencies using similarity prior, localized branch captures local positional relation using proximity prior, and score branch dynamically captures the closeness of predicted score. Besides, our method also includes an approximator to meet the needs of online detection. Our method outperforms other state-of-the-art methods on our released dataset and other existing benchmark. Moreover, extensive experimental results also show the positive effect of multimodal (audio-visual) input and modeling relationships. The code and dataset will be released in https://roc-ng.github.io/XD-Violence/.

연구 동기 및 목표

비트림 영상에서 폭력 탐지에 적합한 대규모, 다중 장면, 약한 감독 기반 데이터셋의 부족을 해결하기 위해.
폭력 탐지의 정밀한 국소화를 위해 비디오 스니펫 간의 복잡한 관계를 효과적으로 모델링하는 딥러닝 프레임워크를 개발하기 위해.
특히 시각적 정보가 모호한 상황에서 탐지의 강건성을 향상시키기 위해 시각 및 청각 모odalities를 모두 활용하기 위해.
경량 추정기 모듈을 통해 실시간 폭력 탐지의 실현 가능성을 높이기 위해.
향후 약한 감독 기반 다중모달 폭력 탐지 분야의 연구 기준을 설정하기 위해.

제안 방법

다양한 종류의 스니펫 간 관계를 모델링하는 세 가지 브랜치(통합, 국소, 점수)를 가진 삼중 신경망인 HL-Net을 제안한다.
통합 브랜치는 모든 스니펫 간의 유사도 우선순위를 사용해 장거리 종속성을 캡처한다.
국소 브랜치는 슬라이딩 윈도우 내에서의 근접성 우선순위를 통해 국소적 위치 관계를 모델링한다.
점수 브랜치는 가용한 어텐션 메커니즘을 사용해 예측된 폭력 점수 간의 유사도를 동적으로 학습한다.
전체 오프라인 추론 과정을 근사하기 위해 효율적인 온라인 추론을 가능하게 하는 HLC 근사기 모듈을 도입한다.
약한 감독 기반 폭력 탐지를 다중 인스턴스 학습(MIL) 문제로 간주하며, 각 비디오는 스니펫의 백이며 학습 시 비디오 수준의 레이블만 사용된다.

실험 결과

연구 질문

RQ1다중모달(음성-시각) 융합이 단모달 접근 방식에 비해 약한 감독 기반 폭력 탐지 성능을 크게 향상시킬 수 있는가?
RQ2글로벌, 국소, 점수 기반 등 서로 다른 종류의 스니펫 간 관계는 폭력 국소화에 어떻게 기여하는가?
RQ3비디오 스니펫 간의 명시적 관계 모델링이 폭력 탐지에서 표준 특징 집약 방식에 비해 얼마나 더 우수한가?
RQ4경량 근사기 모듈을 통해 정확도를 희생시키지 않고 효과적인 온라인 폭력 탐지가 가능할 수 있는가?
RQ5제안된 방법은 정제된 데이터셋을 넘어서 다양한 실제 환경 상황에서도 잘 일반화되는가?

주요 결과

HL-Net은 XD-Violence 데이터셋에서 78.64%의 평균 정밀도(AP)를 달성하여, C3D 및 I3D 특징을 사용한 모든 SOTA 방법을 능가한다.
분석 결과, 통합, 국소, 점수 브랜치 모두가 필수적임을 확인하였으며, 어느 하나라도 제거할 경우 성능이 최소 1.4%p 이상 감소한다.
다중모달 입력(음성 + RGB)은 특히 폭발이나 갑작스러운 충격과 같은 시각적 단서가 모호한 경우에 탐지 정확도를 크게 향상시킨다.
오프라인 탐지 성능은 온라인 탐지보다 5% AP 높으며, 이는 맥락 모델링이 정확한 국소화에 매우 중요함을 시사하지만, HLC 근사기 덕분에 강력한 초기 추론이 가능함을 보여준다.
정성적 결과는 다중모달 입력이 특히 음성 중심의 폭력 사건(폭발, 비명 등)에서 오분류를 줄이는 데 기여함을 보여준다.
4754개의 비트림 영상과 217시간의 음성-시각 콘텐츠를 포함한 XD-Violence 데이터셋은 약한 감독 기반 폭력 탐지 시스템의 훈련 및 평가에 매우 적합함을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.