Skip to main content
QUICK REVIEW

[논문 리뷰] SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks

Bo Li, Wei Wu|arXiv (Cornell University)|2018. 12. 31.
Video Surveillance and Tracking Methods참고 문헌 49인용 수 139
한 줄 요약

SiamRPN++는 공간 인지 샘플링을 사용하여 변환 불변성을 회복한 ResNet 백본을 가진 심층 시암 이 추적기를 학습시키고, 계층별 특징 통합과 depthwise 교차상관을 결합하여 주요 벤치마크에서 실시간 속도로 최첨단 추적 성능을 달성한다.

ABSTRACT

Siamese network based trackers formulate tracking as convolutional feature cross-correlation between target template and searching region. However, Siamese trackers still have accuracy gap compared with state-of-the-art algorithms and they cannot take advantage of feature from deep networks, such as ResNet-50 or deeper. In this work we prove the core reason comes from the lack of strict translation invariance. By comprehensive theoretical analysis and experimental validations, we break this restriction through a simple yet effective spatial aware sampling strategy and successfully train a ResNet-driven Siamese tracker with significant performance gain. Moreover, we propose a new model architecture to perform depth-wise and layer-wise aggregations, which not only further improves the accuracy but also reduces the model size. We conduct extensive ablation studies to demonstrate the effectiveness of the proposed tracker, which obtains currently the best results on four large tracking benchmarks, including OTB2015, VOT2018, UAV123, and LaSOT. Our model will be released to facilitate further studies based on this problem.

연구 동기 및 목표

  • Siamese 트래커와 최첨단 트래커 간의 정확도 격차를 심층 백본 사용으로 줄이기 위한 동기 부여.
  • 심층 시암 네트워크가 어려움을 겪는 원인(번역 불변성) 식별 및 해결책 제시.
  • 향상된 정확도와 효율성을 위한 엔드 투 엔드 학습 가능한 심층 특징의 시암 트래커 개발.
  • 다중 수준 표현을 활용하기 위한 계층별 특징 통합 제안으로 추적 성능 향상.
  • 매개변수를 줄이고 학습 안정화를 돕는 경량화된 교차상관 메커니즘 도입

제안 방법

  • Siamese 추적에서의 엄격한 번역 불변성을 분석하고 padding으로 인한 바이어스를 보여준다.
  • 공간 인지 샘플링을 사용하여 ResNet 기반의 Siamese 트래커를 엔드 투 엔드로 학습한다.
  • 스트라이드 조정과 확장된 합성곱을 활용한 ResNet-50 백본을 채택하여 밀도 예측을 수행한다.
  • Conv3, Conv4, Conv5의 특징을 가중 융합으로 결합하여 계층별 집계를 Introduce 한다.
  • 매개변수를 균형 있게 줄이고 다채널 유사도 맵을 생성하기 위해 depth-wise cross-correlation(DW-XCorr)을 제안한다.

실험 결과

연구 질문

  • RQ1깊은 네트워크(예: ResNet)가 적절한 데이터 샘플링과 함께 엔드 투 엔드로 학습될 경우 시암 비전 추적을 개선할 수 있는가?
  • RQ2딥 백본에서 padding을 사용할 때 번역 불변성을 어떻게 보존하거나 보상할 수 있는가?
  • RQ3다층 특징(계층별 집계)을 결합하면 추적의 위치 추정과 의미를 개선하는가?
  • RQ4Depth-wise cross-correlation 접근법이 매개변수를 줄이면서 추적 정확도를 유지하거나 개선하는가?

주요 결과

  • 공간 인지 샘플링으로 학습하면 ResNet 기반 시암 추적에서 상당한 성능 향상이 나타난다.
  • Conv3–Conv5에 걸친 계층별 특징 통합이 다중 스케일 표현을 활용하여 정확도와 견고성을 향상시킨다.
  • Depthwise cross-correlation은 매개변수를 줄이고 학습을 안정화시키면서 다채널 유사도 맵을 효과적으로 생성한다.
  • SiamRPN++는 OTB2015, VOT2018, UAV123, LaSOT, TrackingNet 데이터셋에서 최첨단 결과를 달성한다.
  • 경량 백본을 사용하는 모바일 변형은 최대 70 FPS까지의 경쟁 속도를 달성하면서도 정확도를 크게 손상시키지 않는다.
  • ResNet-50을 사용한 경우 실시간으로 35 FPS에서 모델이 작동하며 다양한 벤치마크에서 강력한 성능을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.