QUICK REVIEW

[논문 리뷰] TrackNet: Simultaneous Object Detection and Tracking and Its Application in Traffic Video Analysis

Chenge Li, Gregory Dobler|arXiv (Cornell University)|2019. 02. 04.

Video Surveillance and Tracking Methods참고 문헌 3인용 수 23

한 줄 요약

TrackNet는 3D 공간-시간 경계 상자(튜브)를 생성함으로써 비디오에서 객체 검출과 추적을 동시에 수행하는 통합된 딥러닝 프레임워크이다. 수정된 Faster R-CNN 아키텍처를 사용하며, 3D C3D 네트워크에서 유도된 시공간 특징과 VGG에서 유도된 외관 특징을 활용한다. 튜브 제안 네트워크(TPN)를 통해 튜브를 예측함으로써, 512차원 특징 압축을 사용할 경우 UA-DETRAC 데이터셋에서 최신 기술 수준의 성능을 달성하며 mAP는 40.45%를 기록한다.

ABSTRACT

Object detection and object tracking are usually treated as two separate processes. Significant progress has been made for object detection in 2D images using deep learning networks. The usual tracking-by-detection pipeline for object tracking requires that the object is successfully detected in the first frame and all subsequent frames, and tracking is done by associating detection results. Performing object detection and object tracking through a single network remains a challenging open question. We propose a novel network structure named trackNet that can directly detect a 3D tube enclosing a moving object in a video segment by extending the faster R-CNN framework. A Tube Proposal Network (TPN) inside the trackNet is proposed to predict the objectness of each candidate tube and location parameters specifying the bounding tube. The proposed framework is applicable for detecting and tracking any object and in this paper, we focus on its application for traffic video analysis. The proposed model is trained and tested on UA-DETRAC, a large traffic video dataset available for multi-vehicle detection and tracking, and obtained very promising results.

연구 동기 및 목표

비디오 분석에서 객체 검출과 추적을 별개의 과정으로 간주하는 한계를 해결하기 위해.
통합 네트워크 내에서 공간적 외관과 시간적 운동 특징을 공동으로 모델링하여 추적 성능을 향상시키기 위해.
단일 순방향 전파에서 완전한 객체 궤적(튜브)을 생성함으로써 계산 비용과 후처리 복잡도를 감소시키기 위해.
특징 융합, 공간 변환기, 데이터 증강을 통해 모델의 일반화 능력과 정렬 정확도를 향상시키기 위해.
복잡한 교통 비디오 환경에서 프레임 수준의 검출 및 연결 방식과 비교해 튜브 수준의 제안 방식의 효과를 평가하기 위해.

제안 방법

연속된 프레임 그룹(GoP)을 3D 볼륨으로 처리할 수 있도록 Faster R-CNN을 확장하여 검출과 추적을 동시에 수행한다.
스패티오토포럴 특징에서 직접 3D 튜브 후보를 예측하는 튜브 제안 네트워크(TPN)를 활용한다.
운동 특징을 위한 3D C3D 네트워크와 외관 특징을 위한 2D VGG 네트워크의 특징을 융합하며, 특징 차원을 128차원 압축층을 통해 감소시킨다.
프레임 간 특징를 정렬하기 위해 공간 변환기 모듈을 사용하여 시야각 및 운동 변화에 대한 강건성을 향상시킨다.
TPN 동안 선형 보간(LP)을 적용하여 운동의 매끄러움을 암묵적으로 정규화하고 파rameter 수를 줄인다.
분류와 회귀에 대해 교차 엔트로피 손실과 스무스 L1 손실을 사용하여, 엔드 투 엔드 최적화로 UA-DETRAC 데이터셋에서 모델을 훈련 및 테스트한다.

실험 결과

연구 질문

RQ13D 튜브 제안을 통한 공동 검출 및 추적 방식이 기존의 트래킹-바이-디텍션 파이프라인보다 비디오 분석에서 더 우수한 성능을 내는가?
RQ23D CNN에서 유도된 시공간 특징과 2D CNN에서 유도된 외관 특징을 통합할 경우 추적 정확도와 강건성에 어떤 영향을 미치는가?
RQ3프레임 수준의 검출 및 연결 방식 대비 튜브 제안 방식을 사용할 경우 계산 오버헤드와 후처리 복잡도가 어느 정도 감소하는가?
RQ4공간 변환기 및 선형 보간과 같은 아키텍처 구성 요소가 모델 성능과 일반화 능력에 어떤 영향을 미치는가?
RQ5특징 차원 감소와 데이터 증강이 교통 비디오 추적에서 정위치 정확도와 mAP에 어떤 영향을 미치는가?

주요 결과

특징 차원을 128로 압축했을 경우 TrackNet의 전체 모델은 UA-DETRAC 데이터셋에서 평균 평균 정밀도(mAP) 37.47%를 달성했다.
압축 차원을 128에서 512로 늘리면 mAP가 40.45%로 향상되어 더 많은 특징 세부 정보를 유지함으로써 성능 향상이 가능함을 입증했다.
VGG 특징 연결과 공간 변환기 모듈의 포함이 성능 향상에 크게 기여하여, 이들이 특징 표현에 있어 중요한 역할을 한다는 것을 시사했다.
TPN 동안 선형 보간(LP)을 적용함으로써 더 적은 파라미터로 성능 향상을 달성하여, 운동의 매끄러움을 효과적으로 암묵적으로 정규화할 수 있음을 보여주었다.
공간적 특징과 운동 특징을 공동으로 사용함으로써 정밀도가 높아져(거짓 양성 수가 적어짐) 성능 향상이 있었지만, GoP 수준의 특징 해상도로 인해 정위치 정확도는 다소 떨어졌다.
시야각에 따라 성능이 달라졌으며, 정면 시야가 가장 쉬운 것으로 나타났고, 수평 플립을 통한 데이터 증강이 일반화 능력을 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.