QUICK REVIEW

[논문 리뷰] Spatially Supervised Recurrent Convolutional Neural Networks for Visual Object Tracking

Guanghan Ning, Zhi Zhang|arXiv (Cornell University)|2016. 07. 19.

Video Surveillance and Tracking Methods참고 문헌 17인용 수 37

한 줄 요약

이 논문은 깊이 학습 특징에서 종단 간 회귀를 통해 객체 경계 박스를 직접 예측함으로써 시각적 특징과 시간적 위치 이력을 동시에 모델링하는 공간적 지도 학습을 받은 순환 합성곱 신경망인 ROLO을 제안한다. LSTM을 사용해 깊이 학습 특징에서 종단 간으로 객체 경계 박스를 회귀함으로써, 저비용 계산을 유지하면서도 벤치마크 데이터셋에서 최신 기술 수준의 정확도와 강인성을 달성하며, 대부분의 시퀀스에서 이전 방법들보다 크게 승리한다.

ABSTRACT

In this paper, we develop a new approach of spatially supervised recurrent convolutional neural networks for visual object tracking. Our recurrent convolutional network exploits the history of locations as well as the distinctive visual features learned by the deep neural networks. Inspired by recent bounding box regression methods for object detection, we study the regression capability of Long Short-Term Memory (LSTM) in the temporal domain, and propose to concatenate high-level visual features produced by convolutional networks with region information. In contrast to existing deep learning based trackers that use binary classification for region candidates, we use regression for direct prediction of the tracking locations both at the convolutional layer and at the recurrent unit. Our extensive experimental results and performance comparison with state-of-the-art tracking methods on challenging benchmark video tracking datasets shows that our tracker is more accurate and robust while maintaining low computational cost. For most test video sequences, our method achieves the best tracking performance, often outperforms the second best by a large margin.

연구 동기 및 목표

영역 점수 평가에 바이너리 분류에 의존하고 시간적 모델링이 부족한 기존 딥 러닝 트래커의 한계를 해결하기 위해.
장애물, 운동 흐림, 외관 변화와 같은 심각한 과제에 대해 공간-시간적 맥락을 통합함으로써 추적 강인성을 향상시키기 위해.
고수준 시각적 특징과 이력 추적 위치를 모두 활용하여 개선된 국소화 성능을 달성하기 위한 종단 간 학습 가능한 모델을 개발하기 위해.
보조 영역 분류 없이 깊이 학습 특징에 대한 LSTM의 회귀 능력을 탐색하여 직접 경계 박스 예측을 가능하게 하기 위해.
공간적 지도 학습과 시간적 메모리로 강력한 일반화 능력을 갖춘 효율적이고 실시간 추적을 가능하게 하기 위해.

제안 방법

모델은 입력 프레임에서 풍부한 고수준 시각적 특징을 추출하기 위해 YOLO를 사용하고, 이를 LSTM에 공급하여 시간적 모델링을 수행한다.
각 시간 단계에서 시각적 특징과 공간 위치 정보(경계 박스 좌표 또는 히트맵)를 연결하여 공간적 지도 학습을 가능하게 한다.
LSTM은 기울기 기반 역전파를 사용하여 종단 간으로 객체 경계 박자를 회귀하며, 영역을 분류하는 대신 직접 위치를 예측한다.
모델은 시퀀스 전체에서 객체 위치 예측 오차를 최소화하도록 훈련되어, 외관과 운동 역학을 모두 모델링한다.
시스템은 추적을 조건부 확률의 시퀀스로 분해한다: p(B_t | B_<t, X_≤t), 여기서 B_t는 시간 t에서의 객체 위치이다.
모델은 지도 학습을 위해 진짜 위치 또는 히트맵을 특징에 연결하여 LSTM의 회귀를 안내한다.

실험 결과

연구 질문

RQ1종단 간 회귀를 사용하여 LSTM 기반 순환 네트워크가 공간-시간적 의존성을 효과적으로 모델링할 수 있는가?
RQ2좌표 또는 히트맵 연결을 통한 공간적 지도 학습이 깊이 학습 특징 기반 추적의 정확도와 강인성에 향상 효과를 주는가?
RQ3이력 위치와 깊이 학습 특징을 통합한 모델이 장애물과 운동 흐림을 다룰 때 바이너리 분류 기반 트래커보다 얼마나 우수한가?
RQ4제한된 동역학 데이터에서 훈련한 모델이 새로운 비디오 시퀀스로 일반화되는 정도는 어느 정도인가?
RQ5낮은 계산 비용을 유지하면서도 최신 기술 수준의 성능을 달성할 수 있는가?

주요 결과

ROLO는 OTB-30 벤치마크의 대부분의 테스트 시퀀스에서 최고 성능을 기록하며, 종종 두 번째로 좋은 방법보다 크게 앞서나간다.
OPE(일회 평가) 조건에서 OTB-30 데이터셋에서 AUC 0.793을 달성하여 기준 방법들보다 뚜렷이 뛰어나다.
진짜 레이블이 있는 프레임의 1/3만으로 훈련한 경우에도 모델은 잘 일반화되어 전체 시퀀스에서 성능 향상을 보이며, 강력한 일반화 능력을 보여준다.
추가적인 진짜 레이블 없이도 훈련 프레임 수를 늘릴수록 성능 향상이 이루어지며, 제한된 데이터에서 시간적 동역학이 학습 가능하다는 것을 시사한다.
모델은 저비용 계산을 유지하면서도 일관된 fps와 IOU 점수로 실시간 추론을 달성하며, 높은 정확도를 유지한다.
제거 실험 결과, 공간적 지도 학습을 통한 직접 회귀가 보조 분류기나 드롭아웃 기반 정규화 방법보다 성능이 뛰어나다는 것을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.