QUICK REVIEW

[논문 리뷰] Real-Time Action Detection in Video Surveillance using Sub-Action Descriptor with Multi-CNN

Cheng‐Bin Jin, Shengzhe Li|arXiv (Cornell University)|2017. 10. 10.

Human Pose and Action Recognition인용 수 27

한 줄 요약

이 논문은 비디오 감시에서 불완전한 동작 표현 문제를 해결하기 위해 다중 지연 컨volution 신경망을 사용한 하위행동 기술자(sub-action descriptor)를 활용한 실시간 행동 검출 프레임워크를 제안한다. 행동을 자세, 이동 방식, 제스처의 세 수준에서 모델링함으로써 비디오 기반 검출에서 83.5% mAP를 달성하고, 80 fps 이상으로 실행되어 KTH 및 ICVL 데이터셋에서 최신 기술을 초월한다.

ABSTRACT

When we say a person is texting, can you tell the person is walking or sitting? Emphatically, no. In order to solve this incomplete representation problem, this paper presents a sub-action descriptor for detailed action detection. The sub-action descriptor consists of three levels: the posture, the locomotion, and the gesture level. The three levels give three sub-action categories for one action to address the representation problem. The proposed action detection model simultaneously localizes and recognizes the actions of multiple individuals in video surveillance using appearance-based temporal features with multi-CNN. The proposed approach achieved a mean average precision (mAP) of 76.6% at the frame-based and 83.5% at the video-based measurement on the new large-scale ICVL video surveillance dataset that the authors introduce and make available to the community with this paper. Extensive experiments on the benchmark KTH dataset demonstrate that the proposed approach achieved better performance, which in turn boosts the action recognition performance over the state-of-the-art. The action detection model can run at around 25 fps on the ICVL and more than 80 fps on the KTH dataset, which is suitable for real-time surveillance applications.

연구 동기 및 목표

비디오 감시에서 '문자 입력'과 같은 행동이 자세나 운동과 같은 맥락적 정보가 부족하여 불완전한 표현을 보이는 문제를 해결하기 위해.
행동을 자세, 이동 방식, 제스처의 세 하위행동 수준으로 분해함으로써 행동 검출 정확도를 향상시키기 위해.
실제 감시 응용에 적합한 실시간 다중 인물 행동 검출 시스템을 개발하기 위해.
기준 비교를 지원하기 위해 새로운 대규모 ICVL 비디오 감시 데이터셋을 제안하기 위해.
고성능 검출 정확도를 유지하면서도 높은 추론 속도를 확보하는 실시간 행동 검출 성능를 달성하기 위해.

제안 방법

하위행동 기술자는 자세(정적 신체 구조), 이동 방식(운동 유형), 제스처(손 또는 물체 상호작용)의 세 수준의 계층적 수준에서 행동을 인코딩한다.
각 지연 브랜치가 서로 다른 하위행동 구성 요소를 처리하도록, 외관 기반 시간적 특징을 추출하기 위해 다중 지연 컨volution 신경망 아키텍처를 사용한다.
모델은 세 하위행동 수준의 특징을 융합하여 실시간으로 행동을 정확히 국소화하고 식별한다.
컨volution 신경망 브랜치에서 3D 컨볼루션 레이어를 사용한 공간-시간 특징 학습을 통해 시간적 모델링을 향상시킨다.
제안된 프레임워크는 제안 생성과 다중 컨볼루션 신경망을 사용한 분류를 포함하는 두 단계 검출 파이프라인을 사용한다.
시스템은 새로 제안된 ICVL 데이터셋에서 엔드 투 엔드로 훈련되고, KTH에서의 다중 데이터셋 일반화를 위해 미세조정된다.

실험 결과

연구 질문

RQ1계층적 하위행동 기술자가 비디오 감시에서 복잡한 행동의 표현을 향상시킬 수 있는가?
RQ2자세, 이동 방식, 제스처 수준을 모델링할 경우 행동 검출 정확도에 어떤 영향을 미치는가?
RQ3다중 컨볼루션 신경망 아키텍처가 대규모 데이터셋에서 고 mAP를 유지하면서도 실시간 성능를 달성할 수 있는가?
RQ4제안된 방법이 다양한 비디오 감시 시나리오와 데이터셋 간에 잘 일반화되는가?
RQ5실시간 감시 시스템에서 검출 정확도와 추론 속도 사이의 상충 관계는 어떠한가?

주요 결과

제안된 방법은 새로 제안된 ICVL 데이터셋을 사용한 비디오 기반 행동 검출에서 평균 평균 정밀도(mAP) 83.5%를 달성하여 복잡한 행동에서 뛰어난 성능을 입증했다.
KTH 벤치마크에서 모델은 기존 방법을 능가하는 행동 인식 정확도로 최신 기술 수준의 성능를 달성했다.
KTH 데이터셋에서 시스템은 80 fps 이상으로 작동하고, ICVL에서는 약 25 fps로 작동하여 감시 응용에 실시간 가능성을 확인했다.
하위행동 기술자는 자세와 운동 맥락과 같은 세부 정보를 캡처함으로써 행동 표현을 크게 향상시켰다.
ICVL 데이터셋의 도입은 대규모 비디오 감시 행동 검출 연구를 위한 새로운 기준을 제공한다.
제거 분석 결과, 세 하위행동 수준(자세, 이동 방식, 제스처)이 최종 검출 성능에 의미 있는 기여를 했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.