QUICK REVIEW

[논문 리뷰] End-to-end Flow Correlation Tracking with Spatial-temporal Attention

Zheng Zhu, Wei Wu|arXiv (Cornell University)|2017. 11. 03.

Video Surveillance and Tracking Methods참고 문헌 41인용 수 26

한 줄 요약

이 논문은 옵티컬 플로우 추정, 특징 추출, 상관 필터 추적을 통합한 종단간(end-to-end) 딥러닝 프레임워크인 FlowTrack을 제안한다. 유연한 공간-시간 주의 메커니즘을 통해 유동 지도 기반 공간 변환을 사용해 이전 프레임의 특징 맵을 왜곡하고 적응적으로 융합함으로써 특징 표현을 향상시켜 OTB2013, OTB2015, VOT2015, VOT2016에서 최신 기술 수준(SOTA) 성능을 달성한다. VOT2015와 VOT2016에서 EAO 순위 1위를 기록하며 12 FPS로 실행된다.

ABSTRACT

Discriminative correlation filters (DCF) with deep convolutional features have achieved favorable performance in recent tracking benchmarks. However, most of existing DCF trackers only consider appearance features of current frame, and hardly benefit from motion and inter-frame information. The lack of temporal information degrades the tracking performance during challenges such as partial occlusion and deformation. In this work, we focus on making use of the rich flow information in consecutive frames to improve the feature representation and the tracking accuracy. Firstly, individual components, including optical flow estimation, feature extraction, aggregation and correlation filter tracking are formulated as special layers in network. To the best of our knowledge, this is the first work to jointly train flow and tracking task in a deep learning framework. Then the historical feature maps at predefined intervals are warped and aggregated with current ones by the guiding of flow. For adaptive aggregation, we propose a novel spatial-temporal attention mechanism. Extensive experiments are performed on four challenging tracking datasets: OTB2013, OTB2015, VOT2015 and VOT2016, and the proposed method achieves superior results on these benchmarks.

연구 동기 및 목표

기존의 분류형 상관 필터(DCF) 추적기가 현재 프레임의 외관 정보에만 의존하고 시간적 운동 정보를 忽略하는 한계를 해결하기 위해.
부분적 가림, 변형, 조명 변화와 같은 도전적인 추적 환경에서 옵티컬 플로우를 활용해 추적의 강건성을 향상시키기 위해.
이전 방법에서 사용하는 독립형 플로우 특징의 최적화되지 않은 성능을 해결하기 위해 옵티컬 플로우 추정과 추적을 함께 종단간으로 훈련시키기 위해.
운동 유도 왜곡과 주의 메커니즘을 사용해 다중 프레임의 특징을 정렬하고 융합하는 적응형 특징 집합 메커니즘을 개발하기 위해.
플로우와 추적 구성 요소를 통합하고 미분 가능한 방식으로 훈련시켜 뛰어난 추적 정확도와 강건성을 달성하기 위해.

제안 방법

종단간 훈련을 위해 옵티컬 플로우 추정, 특징 추출, 특징 융합, 상관 필터 추적을 딥 네ural 네트워크 내의 학습 가능한 레이어로 설정한다.
옵티컬 플로우를 사용해 이전 프레임의 특징 맵을 현재 프레임의 공간 좌표로 왜곡함으로써 운동에 맞는 특징 융합을 가능하게 한다.
다양한 시간 단계와 공간 위치의 특징 맵을 적응적으로 가중하는 새로운 공간-시간 주의 메커니즘을 도입한다.
공간 주의를 통해 관련 영역에 집중하고 시간 주의를 통해 정보가 풍부한 과거 프레임을 우선순위로 지정함으로써 특징 표현을 향상시킨다.
플로우 및 추적 브랜치가 함께 최적화되는 다단계 네트워크 아키텍처를 사용하며, 대규모 추적 데이터셋을 기반으로 훈련한다.
표준 추적 손실 함수를 사용해 전체 시스템을 종단간으로 훈련시켜 플로우 정확도와 추적 성능를 함께 최적화한다.

실험 결과

연구 질문

RQ1옵티컬 플로우와 시각적 추적의 종단간 공동 훈련이 파이프라인 또는 고정 플로우 접근 방식보다 추적의 강건성과 정확도를 향상시키는가?
RQ2옵티컬 플로우를 활용한 운동 유도 특징 왜곡이 객체 추적에서 다중 프레임 간 특징 정렬에 얼마나 효과적인가?
RQ3공간-시간 주의 메커니즘이 다중 프레임에서 관련 특징을 적응적으로 선택함으로써 특징 융합을 향상시키는가?
RQ4제안된 프레임워크가 OTB2013, OTB2015, VOT2015, VOT2016와 같은 표준 벤치마크에서 최신 기술 수준 추적기를 능가할 수 있는가?
RQ5종단간 훈련과 고정 플로우 네트워크 중 추적 성능에 기여하는 요소는 무엇인가?

주요 결과

OTB2013에서 FlowTrack은 AUC 0.689를 기록하며 플로우 없이 테스트한 베이스라인(0.625)과 다른 변종들보다 유의미하게 뛰어난 성능을 보였다.
OTB2015에서 FlowTrack은 AUC 0.655를 달성하여 평가된 모든 방법 중 최고 성능을 기록했다.
VOT2015에서 FlowTrack은 EAO 점수 0.3405를 기록하며 70개의 추적기 중 1위를 차지했고, 추론 속도는 12 FPS였다.
VOT2016에서 FlowTrack은 EAO 0.3342를 기록하며 EAO 순위 1위, 강건성 순위 2위를 기록하여 뛰어난 일반화 능력을 입증했다.
제거 실험 결과, 종단간 훈련(F lowTr)이 고정 플로우(fix flow)보다 VOT2015와 VOT2016에서 EAO 점수를 8% 이상 높였다.
공간-시간 주의 메커니즘이 크게 기여하며, 시간 주의를 제거한(no_ta) 경우 전체 모델 대비 EAO 점수가 약 8% 감소했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.