QUICK REVIEW

[논문 리뷰] Siamese Instance Search for Tracking

Ran Tao, Efstratios Gavves|arXiv (Cornell University)|2016. 05. 19.

Video Surveillance and Tracking Methods참고 문헌 49인용 수 143

한 줄 요약

사전 학습된 Siamese 네트워크를 사용하여 외부 비디오에서 일반 패치 매칭 함수를 학습하고 이를 간단한, 업데이트되지 않는 추적기에서 초기 목표를 이후 프레임에서 찾는 데 적용하는 추적 접근법. 모델 업데이트나 가려짐 처리 없이 OTB에서 최첨단 성능을 달성합니다.

ABSTRACT

In this paper we present a tracker, which is radically different from state-of-the-art trackers: we apply no model updating, no occlusion detection, no combination of trackers, no geometric matching, and still deliver state-of-the-art tracking performance, as demonstrated on the popular online tracking benchmark (OTB) and six very challenging YouTube videos. The presented tracker simply matches the initial patch of the target in the first frame with candidates in a new frame and returns the most similar patch by a learned matching function. The strength of the matching function comes from being extensively trained generically, i.e., without any data of the target, using a Siamese deep neural network, which we design for tracking. Once learned, the matching function is used as is, without any adapting, to track previously unseen targets. It turns out that the learned matching function is so powerful that a simple tracker built upon it, coined Siamese INstance search Tracker, SINT, which only uses the original observation of the target from the first frame, suffices to reach state-of-the-art performance. Further, we show the proposed tracker even allows for target re-identification after the target was absent for a complete video shot.

연구 동기 및 목표

추적에서 일반적인 외관 변화들을 다루는 일반적이고 강인한 패치 매칭 함수를 외부 비디오 데이터로부터 학습한다.
타깃별 적응 없이 초기 프레임의 타깃을 이용하는 간단한 트래킹 추론을 개발한다.
잘 학습된 매칭 함수가 경쟁력 있거나 최첨단의 추적 성능에 충분함을 보인다.
해당 방법이 비디오에서 부재 후 타깃 재식별을 지원함을 보여준다.

제안 방법

패치를 위한 일반적 매칭 함수를 학습하기 위해 두 스트림으로 구성된 Siamese 네트워크(Siamese Invariance Network)를 사용한다.
전 영역 이미지를 ROI 풀링으로 처리하여 다수의 후보 패치를 효율적으로 비교한다.
여러 CNN 계층의 특징을 융합하고 손실 전에 L2 정규화를 적용하여 표현을 안정화한다.
마진 컨트라스트 손실 D = ||f(x_j) - f(x_k)||_2, y_jk ∈ {0,1}, and margin ε 로 학습하되 평가 데이터와 겹치지 않는 외부 비디오 데이터(ALOV)를 사용한다.
이전 프레임 예측을 중심으로 반지름 기반 샘플링으로 후보 박스를 생성하고 고정 회귀기로 박스 보정을 수행한다.
초기 프레임 타깃과 최대한 잘 일치하는 후보 패치를 선택하여 추적한다. m(x_t0, x_jt) = f(x_t0)^T f(x_jt).

실험 결과

연구 질문

RQ1외부 비디오로 학습된 일반적으로 학습된 패치 매칭 함수가 온라인 적응 없이 미지의 타깃을 견고하게 추적할 수 있는가?
RQ2간단하고 업데이트되지 않는 추적기와 함께 사용할 때 Siamese 네트워크 기반의 매칭 함수가 프레임 간 위치추정의 정확성을 충분히 보장하는가?
RQ3깊이, 풀링, 다계층 특징과 같은 어떤 아키텍처 선택이 타깃 특유의 업데이트 없이 추적 정확도를 극대화하는가?
RQ4장기간 부재 후 타깃 재식별을 이 방법이 지원할 수 있는가?
RQ5제안된 방법이 OTB와 같은 표준 벤치마크에서 현시점의 추적기들과 어떻게 비교되는가?

주요 결과

외부 데이터로 학습된 Siamese 네트워크가 이미지넷 사전학습 기반의 기준선보다 추적 매칭 함수에서 상당한 향상을 보인다.
최대 풀링 제거와 다계층 특징(conv4/conv5/fc6)을 더 깊은 네트워크와 함께 사용하면 최상의 위치 추정 및 정확도가 나온다.
SINT는 간단한 온라인 추론으로 OTB에서 최첨단 성능을 달성하고, SINT+는 적응형 샘플링과 광학 흐름으로 더 향상된다.
긴 비디오 시퀀스에서 타깃 부재 후에도 견고한 재식별을 보여준다.
외부 YouTube 시퀀스에서 SINT가 MEEM과 MUSTer를 AUC 점수에서 능가하여 도전적 왜곡에 대한 강한 일반화를 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.