Skip to main content
QUICK REVIEW

[논문 리뷰] SiamVGG: Visual Tracking using Deeper Siamese Networks

Yuhong Li, Xiaofan Zhang|arXiv (Cornell University)|2019. 02. 07.
Video Surveillance and Tracking Methods참고 문헌 34인용 수 50
한 줄 요약

SiamVGG는 수정된 VGG-16을 기반으로 한 더 깊은 시암 네트워크를 제안하여 실시간 시각 추적에서 최첨단 정확도와 약 50 FPS의 속도를 달성하고, 온라인 미세조정 없이도 OTB 및 VOT 벤치마크에서 강한 성능을 보임.

ABSTRACT

Recently, we have seen a rapid development of Deep Neural Network (DNN) based visual tracking solutions. Some trackers combine the DNN-based solutions with Discriminative Correlation Filters (DCF) to extract semantic features and successfully deliver the state-of-the-art tracking accuracy. However, these solutions are highly compute-intensive, which require long processing time, resulting unsecured real-time performance. To deliver both high accuracy and reliable real-time performance, we propose a novel tracker called SiamVGG\footnote{https://github.com/leeyeehoo/SiamVGG}. It combines a Convolutional Neural Network (CNN) backbone and a cross-correlation operator, and takes advantage of the features from exemplary images for more accurate object tracking. The architecture of SiamVGG is customized from VGG-16 with the parameters shared by both exemplary images and desired input video frames. We demonstrate the proposed SiamVGG on OTB-2013/50/100 and VOT 2015/2016/2017 datasets with the state-of-the-art accuracy while maintaining a decent real-time performance of 50 FPS running on a GTX 1080Ti. Our design can achieve 2% higher Expected Average Overlap (EAO) compared to the ECO and C-COT in VOT2017 Challenge.

연구 동기 및 목표

  • 표준 GPU에서 실시간으로 실행되면서도 높은 정확성을 달성하는 시각 추적을 동기화한다.
  • 온라인 미세조정 없이도 판별력을 개선하기 위한 더 깊고 추적에 맞춘 시암 백본을 활용한다.
  • 패딩 없는 아키텍처를 갖춘 완전 컨볼루셔널 시암 추적기를 설계하여 점수 맵을 개선한다.
  • 실시간 속도를 유지하면서 OTB 및 VOT 데이터셋에서 최첨단 성능을 보여준다.

제안 방법

  • exemplar 및 검색 이미지에 대한 공유 특징 추출기로 수정된 VGG-16 백본을 사용하는 완전 컨볼루셔널 시암 네트워크를 채택한다.
  • 교차상관 출력 f(z, x) = φ(z) ∗ φ(x) (바이어스 제거)를 정의하여 타깃 위치화에 대한 점수 맵을 생성한다.
  • 특징 맵의 노이즈를 피하기 위해 패딩을 제거하고 맵 크기를 보존하도록 네트워크 깊이를 신중하게 구성한다.
  • SoftMargin 손실과 SGD 최적화를 사용하여 혼합 ILSVRC 및 Youtube-BB 데이터(정답 점수 맵)에서 엔드투엔드로 학습한다.
  • 중심까지의 맨해튼 거리(R 반경)에 따라 양성/음성 라벨이 부여된 17×17 점수 맵으로 학습 실제 정답값을 생성한다.
  • 검색 이미지에 대한 소규모 무작위 스케일 변동으로 데이터 증강을 수행하고 회전/flip/컬러 변환에 의존하지 않는다.

실험 결과

연구 질문

  • RQ1더 깊은 시암 백본(SiamVGG)이 실시간 속도를 유지하면서도 초기의 시암 추적기(SiamFC)보다 정확도를 넘어설 수 있는가?
  • RQ2패딩 제거와 VGG-16 백본 사용이 추적의 판별력과 점수 맵 품질을 향상시키는가?
  • RQ3SiamVGG가 표준 벤치마크(OTB, VOT)에서 다른 실시간 시암 추적기들과 비교했을 때 어떤 성능을 보여주는가?
  • RQ4대규모 분류 데이터셋(ILSVRC)와 Youtube-BB를 오프라인 학습에 결합하는 것이 추적 성능에 어떤 영향을 미치는가?

주요 결과

추적기OTB-2013OTB-50OTB-100
SiamFC-3s0.6070.5160.582
CFNet0.6110.5300.568
RASNet0.670-0.642
SA-Siam0.6770.6100.657
DSiam0.656--
SiamRPN--0.637
SiamVGG0.6650.6100.654
  • SiamVGG는 OTB-100에서 실시간 시암 추적기 중 최첨단 정확도(AUC 0.654)를 달성하고 OTB-50(0.610) 및 OTB-2013(0.665)에서도 경쟁력 있는 결과를 보인다.
  • VOT 벤치마크에서 SiamVGG는 VOT2015의 EAO(0.373) 및 VOT2016의 EAO(0.351)에서 1위를 차지하고, VOT2017의 EAO(0.286)에서도 강한 중첩 성능을 유지한다.
  • SiamVGG는 GTX 1080Ti에서 추적 작업에 대해 약 50 FPS의 실시간 성능을 제공한다; 한 비교에서 33.15 FPS의 실시간 평가가 나왔다.
  • ABLation 연구에서 배치 정규화(BN)를 제거하고 VGG-16 백본과 Youtube-BB 데이터를 ILSVRC와 함께 사용하는 것이 성능(OTB-100 AUC 0.637에서 0.654로) significantly 향상시킴.
  • SiamFC와 비교하여 SiamVGG는 실시간 비교에서 VOT2017에서 EAO가 약 51% 더 좋았으며 속도는 유사하게 유지됨.
  • OTB 데이터셋의 표 기반 비교(AUC): SiamVGG 0.665 (OTB-2013), 0.610 (OTB-50), 0.654 (OTB-100).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.