[논문 리뷰] Modeling and Propagating CNNs in a Tree Structure for Visual Tracking
이 논문은 트리 구조로 구성된 다수의 CNN 기반 타깃 외관 모델을 유지하는 온라인 시각 추적 방법인 TCNN을 제시한다. 모델은 트리 경로를 따라 업데이트되며 appearance 변화와 가림 하에서 타깃 상태를 강건하게 추정하기 위해 결합된다.
We present an online visual tracking algorithm by managing multiple target appearance models in a tree structure. The proposed algorithm employs Convolutional Neural Networks (CNNs) to represent target appearances, where multiple CNNs collaborate to estimate target states and determine the desirable paths for online model updates in the tree. By maintaining multiple CNNs in diverse branches of tree structure, it is convenient to deal with multi-modality in target appearances and preserve model reliability through smooth updates along tree paths. Since multiple CNNs share all parameters in convolutional layers, it takes advantage of multiple models with little extra cost by saving memory space and avoiding redundant network evaluations. The final target state is estimated by sampling target candidates around the state in the previous frame and identifying the best sample in terms of a weighted average score from a set of active CNNs. Our algorithm illustrates outstanding performance compared to the state-of-the-art techniques in challenging datasets such as online tracking benchmark and visual object tracking challenge.
연구 동기 및 목표
- 온라인 시각 추적에서 외관 변화, 가림 및 추적 실패를 다룬다.
- 과도한 계산 없이 다중 모달리티를 처리하기 위해 다중 CNN 기반 외관 모델을 활용한다.
- 합성곱 매개변수를 공유하면서 트리 경로를 따라 모델을 업데이트하여 안정적인 온라인 업데이트를 보장한다.
제안 방법
- 사전 학습된 네트워크에서 초기화되고 온라인에서 미세 조정된 CNN으로 타깃 외관을 표현한다.
- 모델 간 친밀도를 나타내는 간선이 있는 트리 구조로 CNN을 유지하고 최적 경로를 따라 업데이트한다.
- 활성 CNN들로부터의 점수를 가중 합산하여 타깃 상태를 추정한다; 가중치는 친밀도와 모델 신뢰도에 의존한다.
- 로컬라이제이션을 더 선명하게 하기 위해 바운딩 박스 회귀 단계를 도입한다.
- 다수의 모델에도 불구하고 메모리와 계산을 낮게 유지하기 위해 CNN들 간에 합성곱 층을 공유한다.
- 프레임당 256개의 샘플링된 후보를 사용하고 레이블링된 양성/음성 샘플로 SGD로 CNN을 학습한다.
실험 결과
연구 질문
- RQ1온라인 추적에서 트리 구조의 CNN 앙상블이 다중 모달 타깃 외관에 대한 강건성을 향상시킬 수 있는가?
- RQ2신뢰성과 드리프트를 최소화하면서 CNN 네트워크 전반에 온라인 업데이트를 어떻게 할당해야 하는가?
- RQ3다수의 CNN을 유지할 때 합성곱 층 공유가 메모리 및 속도에 어떤 영향을 미치는가?
- RQ4CNN 기반 추적기에서 바운딩 박스 회귀가 로컬라이제이션 정확도를 향상시키는가?
주요 결과
| 지표 | Linear_single | Linear_mean | Tree_mean | Tree_max | TCNN |
|---|---|---|---|---|---|
| Precision (%) | 89.6 | 92.0 | 92.8 | 92.0 | 93.7 |
| Success (%) | 85.8 | 86.9 | 86.8 | 87.0 | 87.9 |
| AUC (%) | 65.8 | 67.2 | 67.4 | 67.2 | 68.2 |
- TCNN은 OTB50 및 OTB100 벤치마크에서 정밀도 및 AUC 측면에서 최첨단 추적기보다 우수한 성능을 보인다.
- 다중 모델(Linear_mean 대 Single) 및 트리 구조 업데이트(Tree_mean 대 Linear_mean)의 이점을 보여주는 제거 실험이 있다.
- 바운딩 박스 회귀가 CNN 기반 추적의 로컬라이제이션 품질을 향상시킨다.
- 트리 기반 유지 관리는 여러 신뢰 가능한 경로를 유지하여 가림 및 외관 변화에 대응하는 데 도움을 준다.
- VOT2015에서 TCNN은 CNN 기반 및 강력한 비-CNN 추적기들 사이에서 최고의 또는 경쟁력 있는 정확도와 강인성을 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.