QUICK REVIEW

[논문 리뷰] Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking

Heng Fan, Haibin Ling|arXiv (Cornell University)|2018. 12. 14.

Video Surveillance and Tracking Methods참고 문헌 45인용 수 28

한 줄 요약

이 논문은 시아모이스 캐스케이드 레이지 프포지션 네트워크(C-RPN)를 제안하며, 시아모이스 네트워크 내에서 특징 수준 간에 다중 RPN을 연결함으로써 정확도와 강인성을 향상시키는 다단계 시각 추적 프레임워크이다. 단계별 하드 음성 샘플링을 수행하고, 특징 전달 블록(FTB)을 통해 다중 수준의 특징을 활용하며, 적응형 앵커를 사용한 점진적 회귀를 통해 C-RPN은 6개의 벤치마크에서 최신 기술 수준의 성능을 달성하면서도 약 32 fps로 실시간으로 작동한다.

ABSTRACT

Region proposal networks (RPN) have been recently combined with the Siamese network for tracking, and shown excellent accuracy with high efficiency. Nevertheless, previously proposed one-stage Siamese-RPN trackers degenerate in presence of similar distractors and large scale variation. Addressing these issues, we propose a multi-stage tracking framework, Siamese Cascaded RPN (C-RPN), which consists of a sequence of RPNs cascaded from deep high-level to shallow low-level layers in a Siamese network. Compared to previous solutions, C-RPN has several advantages: (1) Each RPN is trained using the outputs of RPN in the previous stage. Such process stimulates hard negative sampling, resulting in more balanced training samples. Consequently, the RPNs are sequentially more discriminative in distinguishing difficult background (i.e., similar distractors). (2) Multi-level features are fully leveraged through a novel feature transfer block (FTB) for each RPN, further improving the discriminability of C-RPN using both high-level semantic and low-level spatial information. (3) With multiple steps of regressions, C-RPN progressively refines the location and shape of the target in each RPN with adjusted anchor boxes in the previous stage, which makes localization more accurate. C-RPN is trained end-to-end with the multi-task loss function. In inference, C-RPN is deployed as it is, without any temporal adaption, for real-time tracking. In extensive experiments on OTB-2013, OTB-2015, VOT-2016, VOT-2017, LaSOT and TrackingNet, C-RPN consistently achieves state-of-the-art results and runs in real-time.

연구 동기 및 목표

유사한 간섭물과 큰 척도 변화를 다루는 데 어려움을 겪는 단단계 시아모이스-RPN 추적기의 한계를 해결한다.
다단계 하드 음성 샘플링을 통해 캐스케이드 RPN을 활용하여 학습 중 클래스 불균형을 줄인다.
조정된 앵커를 사용한 다단계 회귀를 통해 목표 물체의 바운딩 박스를 점진적으로 개선함으로써 국소화 정확도를 향상시킨다.
새로운 특징 전달 블록(FTB)을 통해 고수준 의미적 특징과 저수준 공간적 특징을 융합하여 특징 표현을 향상시킨다.
전체 캐스케이드를 엔드 투 엔드로 학습함으로써 시간에 따라 적응하지 않아도 실시간 추론을 달성한다.

제안 방법

시아모이스 네트워크 내에서 깊은(고수준) 층에서 浅(저수준) 층으로 향하는 다중 RPN을 연결하여 다단계 추적 파이프라인을 구성한다.
각 RPN을 이전 단계의 출력에서 걸러낸 하드 음성 샘플 뿐만으로 학습시켜 점진적인 학습을 가능하게 한다.
다양한 층에서 특징을 융합하여 의미적 정보와 공간적 정보를 모두 활용함으로써 판별력을 향상시키는 특징 전달 블록(FTB)을 도입한다.
다단계 회귀를 적용: 각 RPN이 이전 단계의 출력에서 조정된 앵커 박스를 사용해 목표 물체의 제안 영역을 개선한다.
모든 단계에서 분류 및 회귀 손실을 통합한 엔드 투 엔드 다중 작업 손실 함수를 사용한다.
학습된 C-RPN 모델을 온라인 적응 없이 직접 추론에 활용하여 실시간 성능을 보장한다.

실험 결과

연구 질문

RQ1단일 단계 시아모이스-RPN 대비 캐스케이드 RPN 아키텍처가 유사 간섭물에 대해 강인성을 향상시킬 수 있는가?
RQ2단계별 하드 음성 샘플링이 어려운 배경 샘플에 대한 판별력을 향상시키고 클래스 불균형을 개선하는 데 기여하는가?
RQ3특징 전달 블록(FTB)을 통한 다중 수준 특징 융합이 의미적 정보와 공간적 정보를 조합함으로써 추적 정확도를 향상시킬 수 있는가?
RQ4적응형 앵커를 사용한 점진적 회귀가 큰 척도 변화 상황에서 국소화 정확도를 향상시키는가?
RQ5캐스케이드 설계는 최신 기술 수준의 성능을 달성하면서도 실시간 추론 속도를 유지할 수 있는가?

주요 결과

C-RPN은 OTB-2013, OTB-2015, VOT-2016, VOT-2017, LaSOT, TrackingNet에서 최신 기술 수준의 성능을 달성하였으며, 이전 방법들보다 일관되게 향상된 성능을 보였다.
LaSOT에서 C-RPN은 프로토콜 II 하에서 성공 점수 0.455를 기록하여, 두 번째로 우수한 추적기보다 SUC에서 1.6% 향상되고, VOT-2017에서 EAO에서 0.7% 향상되었다.
TrackingNet에서 C-RPN은 정밀도 점수 0.619, 정규화된 정밀도 0.746, 성공 점수 0.669를 기록하였으며, 두 번째로 좋은 모델인 MDNet을 각각 5.4%, 4.1%, 6.3% 초월하였다.
절단 실험 결과 각 구성 요소가 크게 기여하는 것으로 확인되었으며, 단계를 추가함으로써 SUC는 2.9% 향상(0.417에서 0.446으로), EAO는 3.5% 향상(0.248에서 0.283으로)되었다.
음성 앵커 필터링을 제거하면 SUC에서 1.6% 감소하고 EAO에서 0.7% 감소하여 하드 음성 샘플링의 중요성을 확인하였다.
특징 전달 블록(FTB)을 적용하면 SUC는 1.3% 향상되고 EAO는 1.1% 향상되어 다중 수준 특징 융합의 효과를 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.