QUICK REVIEW

[논문 리뷰] Fully-Convolutional Siamese Networks for Object Tracking

Luca Bertinetto, Jack Valmadre|arXiv (Cornell University)|2016. 06. 30.

Video Surveillance and Tracking Methods참고 문헌 50인용 수 22

한 줄 요약

이 논문은 ImageNet Video에서 끝에서 끝까지 훈련된 완전 컨볼루션형 시아모이즈 네트워크인 SiamFC를 제안하며, 온라인 모델 업데이트 없이 실시간 추론을 가능하게 한다. 간단한 구조임에도 불구하고 VOT-15 및 OTB-100을 포함한 여러 벤치마크에서 최신 기술을 초월하는 성능을 달성하며, 훈련 데이터의 100%를 사용할 경우 VOT-15에서 기대 중첩도가 0.274에 이른다.

ABSTRACT

The problem of arbitrary object tracking has traditionally been tackled by learning a model of the object's appearance exclusively online, using as sole training data the video itself. Despite the success of these methods, their online-only approach inherently limits the richness of the model they can learn. Recently, several attempts have been made to exploit the expressive power of deep convolutional networks. However, when the object to track is not known beforehand, it is necessary to perform Stochastic Gradient Descent online to adapt the weights of the network, severely compromising the speed of the system. In this paper we equip a basic tracking algorithm with a novel fully-convolutional Siamese network trained end-to-end on the ILSVRC15 dataset for object detection in video. Our tracker operates at frame-rates beyond real-time and, despite its extreme simplicity, achieves state-of-the-art performance in multiple benchmarks.

연구 동기 및 목표

온라인 모델링에만 의존하는 일반 객체 추적의 한계를 해결하기 위해, 모델 표현력을 제한하는 문제를 해결한다.
온라인 학습 없이도 높은 성능 추적을 가능하게 하기 위해 오프라인 단계에서 딥 시아모이즈 네트워크를 사전 훈련한다.
완전 컨볼루션형 시아모이즈 네트워크를 사용한 유사도 학습 접근법이 다양한 추적 벤치마크에서 강력한 일반화 성능을 달성할 수 있음을 입증한다.
ImageNet Video와 같은 대규모 지도 학습 데이터셋을 통해, 각 비디오에 맞는 적응 없이도 강력하고 일반적인 추적기를 훈련시킬 수 있음을 보여준다.
실시간 속도를 초월하면서도 높은 정확도를 유지하는 빠르고 효율적이며 정확한 추적 파이프라인을 구축한다.

제안 방법

동일한 공유 컨볼루션 특징 추출기가 예시(템플릿) 이미지와 검색 이미지 양쪽에 적용되는 시아모이즈 네트워크 아키텍처를 사용한다.
검색 이미지에 대해 완전 컨볼루션형이며, 특징 맵 간의 상관관계를 계산하는 이차형 레이어를 통해 밀도 있고 효율적인 슬라이딩 윈도우 평가가 가능하다.
유사도 함수는 ILSVRC15 데이터셋에서 비디오 객체 검출을 위해 끝에서 끝까지 훈련된 완전 컨볼루션형 시아모이즈 네트워크로 구현된다.
네트워크는 예시가 검색 이미지의 각 공간 위치에 나타날 가능성에 대한 점수 맵을 출력한다.
추론 중에는 온라인 모델 업데이트나 파라미터 조정을 수행하지 않으며, 사전 훈련 후 네트워크는 고정된다.
트래커는 첫 번째 프레임의 외관을 예시로 사용하며, 점수 맵에서 가장 높은 점수를 가진 위치를 대상 위치로 선택한다.

실험 결과

연구 질문

RQ1대규모 데이터셋에서 오프라인으로, 끝에서 끝까지 훈련된 딥 시아모이즈 네트워크가 일반 객체 추적에 대해 강력한 일반화 성능을 달성할 수 있는가?
RQ2완전 컨볼루션형 시아모이즈 아키텍처는 고성능 추적을 유지하면서도 실시간 추론을 가능하게 하는가?
RQ3사전 훈련된 네트워크를 사용한 유사도 학습 접근법이 각 비디오에 맞는 적응 없이도 온라인 학습 기반 트래커를 능가할 수 있는가?
RQ4훈련 데이터셋의 크기가 표준 벤치마크에서 사전 훈련된 시아모이즈 트래커의 성능에 어떤 영향을 미치는가?
RQ5ImageNet Video에서 훈련된 트래커가 ALOV, OTB, VOT 벤치마크 도메인으로 효과적으로 일반화될 수 있는가?

주요 결과

SiamFC는 ImageNet Video 데이터셋의 100%를 사용해 훈련했을 경우 VOT-15 벤치마크에서 기대 중첩도가 0.274에 이르며, 이는 많은 이전 방법들을 뛰어넘는 성능이다.
트래커는 실시간을 훨씬 초월하는 프레임 레이트로 작동하여 실질적인 구현에 적합하다.
온라인 모델 업데이트 없이도 SiamFC는 어려운 시퀀스에서 운동 왜곡, 조명 변화, 체적 변화에 대해 강력한 내성성을 보여준다.
훈련 데이터 크기가 커질수록 성능이 단조롭게 향상되며, VOT-15에서 기대 중첩도는 5% 훈련 데이터 시 0.168에서 100% 훈련 데이터 시 0.274로 상승한다.
SiamFC는 온라인 적응을 사용하는 대부분의 최신 기술 트래커를 능가하며, 유일하게 실시간 속도를 달성하는 트래커이기도 하다.
ImageNet Video 도메인에서 훈련된 방법은 ALOV/OTB/VOT 벤치마크 도메인으로 효과적으로 일반화되며, 이는 이의 이식 가능성(transferability)을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.