QUICK REVIEW

[논문 리뷰] Online Tracking by Learning Discriminative Saliency Map with Convolutional Neural Network

Seunghoon Hong, Tackgeun You|arXiv (Cornell University)|2015. 02. 24.

Video Surveillance and Tracking Methods참고 문헌 42인용 수 518

한 줄 요약

이 논문은 정확한 목표물 국소화와 픽셀 수준의 세분화를 위해 사전 훈련된 컬러리네이션 신경망(CNN)을 활용하여 분류 가능한 시각적 강조 지도를 학습하는 온라인 시각 추적 방법을 제안한다. SVM로 식별된 특징을 CNN를 통해 역전파함으로써, 목표물 전용의 시각적 강조 지도를 생성하여 외관 모델링을 향상시키며, 벤치마크 데이터셋에서 최신 기술 수준의 성능을 달성하여 추적 정확도와 세분화 능력이 뛰어나다.

ABSTRACT

We propose an online visual tracking algorithm by learning discriminative saliency map using Convolutional Neural Network (CNN). Given a CNN pre-trained on a large-scale image repository in offline, our algorithm takes outputs from hidden layers of the network as feature descriptors since they show excellent representation performance in various general visual recognition problems. The features are used to learn discriminative target appearance models using an online Support Vector Machine (SVM). In addition, we construct target-specific saliency map by backpropagating CNN features with guidance of the SVM, and obtain the final tracking result in each frame based on the appearance model generatively constructed with the saliency map. Since the saliency map visualizes spatial configuration of target effectively, it improves target localization accuracy and enable us to achieve pixel-level target segmentation. We verify the effectiveness of our tracking algorithm through extensive experiment on a challenging benchmark, where our method illustrates outstanding performance compared to the state-of-the-art tracking algorithms.

연구 동기 및 목표

복잡한 실제 조건인 가림, 조도 변화, 운동 흐림 등의 도전 과제에 대해 강건한 시각 추적을 해결하기 위해.
SVM를 통한 온라인 분류 학습과 깊이 신경망 특징을 융합하여 목표물 외관 모델링을 향상시키기 위해.
분류 특징의 역전파를 통해 목표물 전용의 시각적 강조 지도를 구성하여 픽셀 수준의 목표물 세분화를 가능하게 하기 위해.
지속적인 추적 성능를 확보하기 위해 온라인 SVM과 생성 모델의 점진적 학습을 통한 추적기의 온라인 적응을 실현하기 위해.

제안 방법

목표물 외관을 위한 일반적이고 고수준의 표현으로서 마지막 합성곱층에서의 사전 훈련된 CNN 특징을 사용한다.
순차적인 훈련 샘플을 사용하여 온라인 SVM를 활용해 목표물-배경 분류를 위한 분류 특징을 학습한다.
양성 SVM 샘플에 관련된 CNN 특징을 네트워크를 통해 역전파하여 목표물 전용의 시각적 강조 지도를 생성한다.
다수의 양성 샘플에서 유도된 강조 지도를 통합하여 분류 가능한 목표물 영역을 강조하는 공간적으로 정밀화된 지도를 형성한다.
시각적 강조 지도를 가능도 관측 모델로 사용하여 순차적 베이지안 필터링을 수행함으로써 추적을 수행한다.
실시간으로 온라인 SVM과 생성 외관 모델을 업데이트하여 지속적인 적응을 실현한다.

실험 결과

연구 질문

RQ1네트워크의 미세조정 없이도 사전 훈련된 CNN 특징을 온라인 시각 추적에 효과적으로 활용할 수 있는가?
RQ2CNN 특징에서 어떻게 분류 가능한 시각적 강조 지도를 구성하여 국소화 정확도를 향상시킬 수 있는가?
RQ3SVM 결정 경계에서 유도된 강조 지도가 도전적인 시각 조건에서 추적의 강건성을 향상시킬 수 있는가?
RQ4강조 지도 기반 생성 모델이 경계 상자 중심 추적에 비해 픽셀 수준의 세분화 성능을 얼마나 향상시키는가?

주요 결과

제안된 방법은 온라인 추적 벤치마크에서 최신 기술 수준의 성능를 달성하여 모든 평가 지표에서 기존 추적기들을 압도한다.
강조 지도 기반 생성 모델링을 포함한 전체 알고리즘은 오직 SVM 점수에 의존하는 축소된 버전보다 뚜렷한 향상을 보였다.
추적기는 높은 정밀도의 픽셀 수준 세분화를 달성하였으며, 겹침 비율(IoU)이 경계 상자 기반 추적기들보다 상당히 높았다.
정량적 결과는 가림, 조도 변화, 빠른 운동을 포함한 11개의 추적 도전 요소 전반에서 일관된 우수성을 입증하였다.
9개의 영상 시퀀스에 대한 성공도 플롯에서 제안된 방법은 가장 높은 AUC 점수를 기록하여 강건하고 정확한 추적 성능를 나타냈다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.