QUICK REVIEW

[논문 리뷰] Intelligent Intersection: Two-Stream Convolutional Networks for Real-time Near Accident Detection in Traffic Video

Xiaohui Huang, Pan He|arXiv (Cornell University)|2019. 01. 04.

Video Surveillance and Tracking Methods참고 문헌 49인용 수 25

한 줄 요약

이 논문은 공간 및 시간 스트림 네트워크를 사용하여 항공 교통 영상에서 실시간 차량 검출, 다중 객체 추적 및 근접 사고 검출을 동시에 수행하는 이중 스트림 3D CNN 프레임워크를 제안한다. 새로운 교통 근접 사고 데이터셋(TNAD)에서 89.4% 정밀도, 83.3% 재현율, 86.3% F1 점수를 달성하여 높은 프레임 레이트 성능(20–30 fps)을 입증한다.

ABSTRACT

In Intelligent Transportation System, real-time systems that monitor and analyze road users become increasingly critical as we march toward the smart city era. Vision-based frameworks for Object Detection, Multiple Object Tracking, and Traffic Near Accident Detection are important applications of Intelligent Transportation System, particularly in video surveillance and etc. Although deep neural networks have recently achieved great success in many computer vision tasks, a uniformed framework for all the three tasks is still challenging where the challenges multiply from demand for real-time performance, complex urban setting, highly dynamic traffic event, and many traffic movements. In this paper, we propose a two-stream Convolutional Network architecture that performs real-time detection, tracking, and near accident detection of road users in traffic video data. The two-stream model consists of a spatial stream network for Object Detection and a temporal stream network to leverage motion features for Multiple Object Tracking. We detect near accidents by incorporating appearance features and motion features from two-stream networks. Using aerial videos, we propose a Traffic Near Accident Dataset (TNAD) covering various types of traffic interactions that is suitable for vision-based traffic analysis tasks. Our experiments demonstrate the advantage of our framework with an overall competitive qualitative and quantitative performance at high frame rates on the TNAD dataset.

연구 동기 및 목표

복잡한 도시 교통 환경에서 실시간 통합 검출, 추적 및 근접 사고 분석의 과제를 해결한다.
높은 동적 범위, 변동하는 조도, 실시간 제약 조건을 처리하지 못하는 기존 시스템의 한계를 극복한다.
외관 및 운동 특징을 통합하여 향상된 근접 사고 예측을 위한 통합 딥 러닝 프레임워크를 개발한다.
시각 기반 교통 분석 및 근접 사고 검출의 기준을 마련하기 위해 새로운 다각도의 항공 영상 데이터셋(TNAD)을 구축한다.
실세계 지능형 교통 시스템(ITS)에의 구현을 위해 고속 처리(20–30 fps)를 가능하게 한다.

제안 방법

단일 프레임에서의 외관 특징를 사용한 객체 검출을 위한 공간 스트림을 활용한 이중 스트림 3D CNN 아키텍처를 도입한다.
영상 클립에서 운동 특징를 추출하기 위해 시간 스트림 네트워크를 사용하여 다중 객체 추적 및 궤적 추정을 수행한다.
양 스트림의 특징를 통합하여 공간적 접근도와 충돌하는 운동 패턴 기반의 근접 사고 확률을 계산한다.
근접 사고 국지화에서 진짜 양성 검출을 위한 기준으로 교차 면적 비율(IoU) ≥ 0.6을 적용한다.
희소 샘플링을 사용하여 훈련을 수행하기 위해 57개의 시뮬레이션 영상과 51,123개의 프레임을 포함한 커스터마이즈된 교통 근접 사고 데이터셋(TNAD)을 훈련 및 테스트에 사용한다.
공간 스트림에서는 최신 기술의 객체 검출 방법을, 시간 스트림에서는 밀도 있는 궤적 계산을 사용하여 강력한 추적을 구현한다.

실험 결과

연구 질문

RQ1통합된 이중 스트림 3D CNN 아키텍처가 항공 교통 영상에서 실시간 검출, 추적 및 근접 사고 검출을 효과적으로 수행할 수 있는가?
RQ2외관 및 운동 특징가 함께 사용될 경우 단일 모odal 접근법에 비해 근접 사고 검출 정확도가 얼마나 향상되는가?
RQ3다양한 교통 조건과 조도에서 프레임워크가 실시간 성능(20–30 fps)을 얼마나 잘 유지하는가?
RQ4근접 사고 검출을 위한 새로운 다각도의 데이터셋(TNAD)에서 프레임워크의 성능을 정량적으로 비교하면 어떻게 되는가?
RQ5제안된 방법이 도시 교차로에서 자동차, 오토바이, 보행자 간의 복잡한 교통 상호작용에 일반화될 수 있는가?

주요 결과

제안된 이중 스트림 3D CNN은 근접 사고 검출에서 TNAD 데이터셋에서 정밀도 89.4%, 재현율 83.3%, F1 점수 86.3%를 달성한다.
960×480 해상도에서 28 fps로 실시간 성능을 유지하여 실세계 ITS에의 구현 가능성을 입증한다.
공간 스트림은 외관 특징를 활용해 차량과 근접 사고 후보를 효과적으로 검출하며, 시간 스트림은 운동 패턴을 통해 추적 정확도를 향상시킨다.
외관 및 운동 특징의 통합은 공간적 겹침과 충돌하는 궤적을 모두 포착함으로써 근접 사고 검출을 크게 향상시킨다.
57개의 시뮬레이션 영상과 51,123개의 프레임을 포함한 TNAD 데이터셋은 다양한 교통 상호작용을 가진 근접 사고 검출을 위한 다각도의 기준을 제공한다.
정성적 결과는 혼잡, 다양한 조도, 교차로에서의 복잡한 동작 조건에서도 강력한 성능을 보임을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.