QUICK REVIEW

[논문 리뷰] Visual Tracking by Reinforced Decision Making.

Janghoon Choi, Junseok Kwon|arXiv (Cornell University)|2017. 02. 21.

Video Surveillance and Tracking Methods참고 문헌 35인용 수 26

한 줄 요약

이 논문은 깊이 강화학습을 활용해 추적에 적합한 최적의 템플릿을 선택함으로써 잘못된 외관 모델 업데이트로 인한 드리프트를 완화하는 실시간 시각 추적 알고리즘을 제안한다. 정책 네트워크는 벤치마크에서 유도된 합성 에피소드를 기반으로 정책 기반 강화학습으로 훈련되며, 43 fps의 성능을 달성하면서도 추적 정확도가 향상된다.

ABSTRACT

One of the major challenges of model-free visual tracking problem has been the difficulty originating from the unpredictable and drastic changes in the appearance of objects we target to track. Existing methods tackle this problem by updating the appearance model on-line in order to adapt to the changes in the appearance. Despite the success of these methods however, inaccurate and erroneous updates of the appearance model result in a tracker drift. In this paper, we introduce a novel real-time visual tracking algorithm based on a template selection strategy constructed by deep reinforcement learning methods. The tracking algorithm utilizes this strategy to choose the appropriate template for tracking a given frame. The template selection strategy is self-learned by utilizing a simple policy gradient method on numerous training episodes randomly generated from a tracking benchmark dataset. Our proposed reinforcement learning framework is generally applicable to other confidence map based tracking algorithms. The experiment shows that our tracking algorithm runs in real-time speed of 43 fps and the proposed policy network effectively decides the appropriate template for successful visual tracking.

연구 동기 및 목표

외관 변화에 의한 추적 도전 과제, 특히 잘못된 온라인 외관 모델 업데이트로 인한 드리프트 문제를 해결한다.
각 프레임에 대해 가장 신뢰할 수 있는 템플릿을 동적으로 선택하는 실시간 추적 프레임워크를 개발한다.
사람이 수작업으로 설계한 히ュ리스틱이 필요 없이, 강화학습을 활용해 자가 적응형 템플릿 선택 정책을 훈련시킨다.
신뢰도 맵 기반 추적 알고리즘에 일반적으로 적용 가능한 프레임워크를 구축한다.

제안 방법

추적 벤치마크 데이터셋에서 유도된 무작위로 생성된 훈련 에피소드를 기반으로 단순 정책 기반 강화학습 방법을 사용해 정책 네트워크를 훈련시킨다.
템플릿 선택을 순차적 결정 문제로 공식화하며, 에이전트는 각 프레임에서 후보 영역 중 최적의 템플릿을 선택한다.
깊이 신경망을 사용해 시각적 특징을 인코딩하고, 후보 템플릿에 대한 확률 분포를 출력한다.
추적 정확도를 기반으로 강화학습 보상을 정의하여, 국소화 오차를 최소화하는 템플릿 선택을 장려한다.
훈련된 정책을 실시간 추적 파이프라인에 통합하여 추론 중 동적 템플릿 업데이트를 가능하게 한다.
특징 추출 및 매칭 컴포넌트에서 템플릿 선택 로직을 분리함으로써 기존의 신뢰도 맵 기반 추적기와의 호환성을 확보한다.

실험 결과

연구 질문

RQ1강화학습 기반의 템플릿 선택 전략은 외관 변화 상황에서 추적 드리프트를 효과적으로 줄일 수 있는가?
RQ2정책 기반 강화학습으로 훈련된 정책 네트워크는 실시간에서 미리 보지 않은 추적 시퀀스에 얼마나 잘 일반화되는가?
RQ3기본 온라인 외관 모델 업데이트 전략에 비해 제안된 방법은 추적 정확도를 얼마나 향상시키는가?
RQ4강화학습 프레임워크는 다른 신뢰도 맵 기반 추적 알고리즘에 효과적으로 적용될 수 있는가?

주요 결과

제안된 추적기는 실시간 구동에 적합한 43 프레임당 초 성능을 달성하여 실질적 구현에 적합하다.
정책 네트워크는 최적의 템플릿을 성공적으로 학습하여 잘못된 모델 업데이트로 인한 추적 드리프트를 크게 감소시켰다.
강화학습 프레임워크는 일반화 가능하며 다른 신뢰도 맵 기반 추적 알고리즘에 통합될 수 있다.
합성 에피소드를 기반으로 한 정책 기반 강화학습 훈련 과정은 강건하고 적응 가능한 템플릿 선택 정책을 도출한다.
더 신뢰할 수 있는 템플릿 선택 덕분에 전통적인 온라인 외관 모델링 접근 방식보다 추적 정확도가 향상된다.
각 프레임에서 가장 분류 능력이 뛰어난 템플릿을 동적으로 선택함으로써 극단적인 외관 변화를 효과적으로 처리한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.