[논문 리뷰] Visual Object Tracking With Discriminative Filters and Siamese Networks: A Survey and Outlook
이 종합 검토는 최근 10년간 시각적 객체 추적 분야에서 주로 사용된 Discriminative Correlation Filters (DCFs)와 Siamese Networks (SNs)에 대해 9개의 벤치마크를 포함해 90개 이상의 추적기들을 분석한다. 이는 이론적 배경을 상세히 설명하고, Expected Average Overlap (EAO)와 같은 성능 지표를 바탕으로 비교하며, 공통 및 고유한 과제를 식별하고, 향후 연구 방향으로서 강건성, 실시간 처리, 다중 객체 추적에 대한 권고를 제시한다.
Accurate and robust visual object tracking is one of the most challenging and fundamental computer vision problems. It entails estimating the trajectory of the target in an image sequence, given only its initial location, and segmentation, or its rough approximation in the form of a bounding box. Discriminative Correlation Filters (DCFs) and deep Siamese Networks (SNs) have emerged as dominating tracking paradigms, which have led to significant progress. Following the rapid evolution of visual object tracking in the last decade, this survey presents a systematic and thorough review of more than 90 DCFs and Siamese trackers, based on results in nine tracking benchmarks. First, we present the background theory of both the DCF and Siamese tracking core formulations. Then, we distinguish and comprehensively review the shared as well as specific open research challenges in both these tracking paradigms. Furthermore, we thoroughly analyze the performance of DCF and Siamese trackers on nine benchmarks, covering different experimental aspects of visual tracking: datasets, evaluation metrics, performance, and speed comparisons. We finish the survey by presenting recommendations and suggestions for distinguished open challenges based on our analysis.
연구 동기 및 목표
- 최근 10년간 시각적 객체 추적 분야에서 주로 사용된 Discriminative Correlation Filters (DCFs)와 Siamese Networks (SNs)에 대한 체계적인 검토를 제공하기 위해.
- VOT, GOT-10K, TrackingNet 등 주요 9개 추적 벤치마크에서 90개 이상의 DCF 및 시아모이즈 기반 추적기들의 성능을 분석하고 비교하기 위해.
- Boundary artifacts, 온라인 적응 가능성, 기하학적 추정 등 DCF 및 시아모이즈 추적 파라다임에서 공통 및 고유한 과제를 식별하고 구분하기 위해.
- 세분화 통합, 효율적인 백본 네트워크, 트랜스포머의 역할 등 향후 연구 방향에 대한 근거 기반 권고를 제공하기 위해.
- 오픈 월드 환경에서 시각적 추적, 영상 세분화, SLAM, 다중 객체 추적 간의 융합 기반 기초를 마련하기 위해.
제안 방법
- 최소 제곱 손실을 통한 온라인 상관 필터 학습 및 검출을 위한 FFT 기반 빠른 컨볼루션을 포함한 DCF의 이론적 배경을 체계적으로 검토한다.
- 타겟 패치와 배경 패치 간의 거리 최소화 및 최대화를 통해 임베딩 공간에서 유사도를 학습하는 이중 브랜치 아키텍처에 초점을 맞춘 시아모이즈 네트워크의 추적 분석을 수행한다.
- Expected Average Overlap (EAO), 평균 성공률(mSR), AUC와 같은 표준 지표를 사용해 9개의 벤치마크에서 추적기 성능을 비교한다.
- 속도와 정확도의 상호 보완적 관계를 평가하며, DiMP(EAO: 0.274, VOT2019) 및 SiamMask(EAO: 0.321, VOT2018)와 같은 최신 성과를 강조한다.
- 현대 DCF에서의 엔드 투 엔드 오프라인 훈련(예: DiMP, PrDiMP)과 시아모이즈 추적기의 온라인 적응 한계를 통합 분석한다.
- 최신 트렌드로는 STARK의 주목적 기반 상관 예측을 통해 트랜스포머를 특징 강화 및 상관 학습에 활용한 사례를 중심으로 탐색한다.
실험 결과
연구 질문
- RQ1표준 벤치마크에서 DCF 기반 및 시아모이즈 네트워크 기반 추적기의 정확도, 강건성, 속도 측면에서의 비교는 어떻게 이루어지는가?
- RQ2Boundary artifacts, 최적화 곤란, 온라인 모델 적응 가능성 등 DCF 및 시아모이즈 추적에서 공통 및 고유한 과제는 무엇인가?
- RQ3딥 페처 표현 및 백본 아키텍처(예: ResNet)가 두 파라다임 모두에서 추적기 성능에 미치는 영향은 어느 정도인가?
- RQ4최근의 발전, 예를 들어 엔드 투 엔드 훈련, 세분화 통합, 주목적 메커니즘 등이 추적 성능 및 일반화 능력에 어떤 영향을 미치는가?
- RQ5오픈 월드 환경에서 강건성, 실시간 처리, 다중 객체 추적을 실현하기 위한 주요 열린 과제는 무엇인가?
주요 결과
- 최고 성능을 보인 DCF 추적기인 DiMP는 VOT2019 벤치마크에서 EAO 0.274를 기록했으며, 이는 KCF(EAO: 0.181) 및 SRDCF(EAO: 0.192)와 비교해 뚜렷한 우월성을 보였다.
- 최고의 시아모이즈 추적기인 SiamMask는 VOT2018에서 EAO 0.321을 기록했으며, 정확도와 세분화 능력 모두 뛰어난 성능을 보였다.
- GOT-10K 벤치마크에서 최고 성능을 보인 시아모이즈 추적기인 SiamR-CNN는 mAO 0.649를 기록했고, 최고의 DCF 추적기인 PrDiMP는 0.634 mAO를 달성하여 두 파라다임 간의 강한 융합 경향을 보였다.
- 트랜스포머는 현대 추적기에서 효과적인 구성 요소로 부상하고 있으며, STARK는 자기 주목적(self-attention)을 활용해 상관 필터를 예측함으로써 높은 정확도와 강건성을 확보했다.
- SiamMask 및 D3S에서 관찰된 것처럼 추적 프레임워크에 세분화 기능을 통합하면 경계 상자 회귀 및 모델 업데이트의 강건성이 크게 향상된다.
- 진전이 있었음에도 불구하고, 비평면 물체에 대한 호모지어피(예: 호모지어피 추정)와 깊은 백본(예: ResNet)을 사용할 경우 CPU 기반 플랫폼에서의 실시간 성능 문제 등 여전히 과제가 남아 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.