Skip to main content
QUICK REVIEW

[논문 리뷰] Deeper and Wider Siamese Networks for Real-Time Visual Tracking

Zhipeng Zhang, Houwen Peng|arXiv (Cornell University)|2019. 01. 07.
Video Surveillance and Tracking Methods참고 문헌 42인용 수 110
한 줄 요약

논문은 패딩으로 인한 위치 편향을 제거하기 위해 크롭-인사이드 잔차(CIR) 유닛을 제시하고, SiamFC 및 SiamRPN용으로 더 깊고 넓은 시암 네트워크를 구성합니다(CIResNet 가족, CIResInception, CIResNeXt). 이를 통해 실시간 속도에서 실질적인 정확도 향상을 달성합니다.

ABSTRACT

Siamese networks have drawn great attention in visual tracking because of their balanced accuracy and speed. However, the backbone networks used in Siamese trackers are relatively shallow, such as AlexNet [18], which does not fully take advantage of the capability of modern deep neural networks. In this paper, we investigate how to leverage deeper and wider convolutional neural networks to enhance tracking robustness and accuracy. We observe that direct replacement of backbones with existing powerful architectures, such as ResNet [14] and Inception [33], does not bring improvements. The main reasons are that 1)large increases in the receptive field of neurons lead to reduced feature discriminability and localization precision; and 2) the network padding for convolutions induces a positional bias in learning. To address these issues, we propose new residual modules to eliminate the negative impact of padding, and further design new architectures using these modules with controlled receptive field size and network stride. The designed architectures are lightweight and guarantee real-time tracking speed when applied to SiamFC [2] and SiamRPN [20]. Experiments show that solely due to the proposed network architectures, our SiamFC+ and SiamRPN+ obtain up to 9.8%/5.7% (AUC), 23.3%/8.8% (EAO) and 24.4%/25.0% (EAO) relative improvements over the original versions [2, 20] on the OTB-15, VOT-16 and VOT-17 datasets, respectively.

연구 동기 및 목표

  • 백본의 깊이와 너비가 시암 트래커 성능에 미치는 영향을 분석한다.
  • 깊은 네트워크를 사용할 때 성능 저하를 유발하는 요인을 확인한다.
  • 패딩으로 인한 위치 편향을 제거하는 잔차 모듈을 제안한다.
  • 제한된 수용 영역(Receptive Field) 및 스트라이드 조건에서 CIR 기반의 더 깊고 넓은 백본을 설계한다.
  • 향상된 정확도로 표준 벤치마크에서 실시간 추적 성능을 입증한다.

제안 방법

  • 패딩 영향 특징을 잔차 합 이후에 잘라내는 크롭-인사이드 잔차(CIR) 유닛을 도입한다.
  • SiamFC와 SiamRPN에서 패딩을 포함하는 백본을 CIR 기반 백본(CIResNet, CIResInception, CIResNeXt)으로 대체한다.
  • exemplar 크기에 대해 RF 비율이 60-80%로 유지되도록 수용 영역 크기와 네트워크 스트라이드를 제어한다.
  • CIR 유닛을 사용하여 위치 추정 정밀도와 특징 풍부성을 균형 있게 유지하는 더 깊고 넓은 네트워크를 구성한다.
  • ImageNet 사전 학습으로 네트워크를 훈련하고, 단계적으로 언프리징하여 SiamFC/SiamRPN 프레임워크에서 미세 조정한다.
  • 표준 추적 벤치마크(OTB, VOT)에서 평가하고 AlexNet 기초선 및 최첨단 트래커와 비교한다.

실험 결과

연구 질문

  • RQ1깊이, 너비, 수용영역, 스트라이드, 패딩이 시암 트래킹 정확도와 위치 결정에 어떤 영향을 미치는가?
  • RQ2패딩으로 인한 위치 편향이 시암 트래킹을 저해할 수 있으며 이를 어떻게 완화할 수 있는가?
  • RQ3CIR 기반 더 깊거나 더 넓은 백본이 시암 트랙커(SiamFC, SiamRPN)의 정확도를 개선하면서 실시간 속도를 유지하는가?
  • RQ4시암 특성 임베딩의 강건성과 식별력을 극대화하는 архитектural 가이드라인은 무엇인가?

주요 결과

  • 더 깊은 백본을 사용할 때 작은 스트라이드(4 또는 8)가 더 큰 스트라이드보다 시암 트래커에 이롭다.
  • 마지막 레이어 뉴런의 최적 수용 영역은 예제 크기의 약 60%~80%이며, 최대 RF는 예제 크기를 넘지 않는 것이 바람직하다.
  • 전층 컨볼루션 네트워크에서의 패딩은 위치 편향을 도입하여 이미지 경계 근처의 localization을 악화시킨다.
  • CIR 유닛(및 그 넓은 변형 CIR-Inception, CIR-NeXt)은 패딩 영향 특징을 제거하고 식별력을 개선하며, AlexNet 기초선 대비 상당한 이득을 제공한다.
  • CIResNet-22는 SiamRPN/SiamFC 변형에서 OTB-15에서 최대 +9.8%(AUC), VOT-17에서 +23.3%(EAO) 등의 주목할 만한 이득을 달성하고 실시간 속도도 유지한다(예: 설정에 따라 대략 70~150 FPS).
  • SiamFC+ 및 SiamRPN+ (CIResNet-22 사용)는 OTB-2015 및 VOT-17에서 기존 시암 트랙커를 능가하며 SiamRPN+은 GTX 1080에서 약 150 FPS에 도달한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.