Skip to main content
QUICK REVIEW

[논문 리뷰] VITAL: VIsual Tracking via Adversarial Learning

Yibing Song, Chao Ma|arXiv (Cornell University)|2018. 04. 12.
Video Surveillance and Tracking Methods참고 문헌 47인용 수 58
한 줄 요약

VITAL은 특징 공간의 적대적 마스크로 양성 샘플을 보강하고 클래스 불균형을 해결하기 위한 비용 민감 손실을 사용하여 상태-오브-더-아트 방법들과 비교해 탐지 기반 추적의 강건성을 향상시킨다.

ABSTRACT

The tracking-by-detection framework consists of two stages, i.e., drawing samples around the target object in the first stage and classifying each sample as the target object or as background in the second stage. The performance of existing trackers using deep classification networks is limited by two aspects. First, the positive samples in each frame are highly spatially overlapped, and they fail to capture rich appearance variations. Second, there exists extreme class imbalance between positive and negative samples. This paper presents the VITAL algorithm to address these two problems via adversarial learning. To augment positive samples, we use a generative network to randomly generate masks, which are applied to adaptively dropout input features to capture a variety of appearance changes. With the use of adversarial learning, our network identifies the mask that maintains the most robust features of the target objects over a long temporal span. In addition, to handle the issue of class imbalance, we propose a high-order cost sensitive loss to decrease the effect of easy negative samples to facilitate training the classification network. Extensive experiments on benchmark datasets demonstrate that the proposed tracker performs favorably against state-of-the-art approaches.

연구 동기 및 목표

  • 탐지 기반 추적에서 프레임 특정 판별 특징에 대한 과적합 해결
  • 특징 공간에서 양성 샘플을 보강하여 시간적 외관 변화 포착
  • 고차원 비용 민감 손실을 도입하여 클래스 불균형 완화
  • 오랜 시간적 구간에 걸친 강건한 특징을 식별하기 위해 적대적 학습 활용
  • 표준 벤치마크에서 최신 추적자에 비해 우수한 성능 시연

제안 방법

  • 마지막 CNN 컨볼루션 레이어와 첫 번째 FC 레이어 사이에 생성 네트워크 G를 삽입하여 특징 드롭아웃용 가중치 마스크를 생성
  • 가 masked features로 D(분류기)를 학습시켜 시간적으로 강건한 표현을 학습
  • G가 반복적으로 D의 손실을 최대화하는 마스크를 식별하는 적대적 학습을 활용하여 D가 프레임 특정 판별 특징에서 벗어나도록 유도
  • 쉽게 분류되는 음수 샘플의 가중치를 낮추고 어려운 음수 샘플을 강조하기 위해 포컬과 유사한 조정에 기반한 고차원 비용 민감 손실을 적용
  • 오프라인 사전 학습과 온라인 업데이트 동안 G와 D를 번갈아 가며 학습시키되 테스트 시에는 G를 제거
  • 레이블된 샘플로 사전 학습하고 다양화된 양성 샘플과 채굴된 어려운 음수들을 사용하여 온라인 미세 조정

실험 결과

연구 질문

  • RQ1적대적으로 생성된 특징 마스크가 탐지 기반 추적에서 더 시간적으로 강건한 표현을 얻을 수 있는가?
  • RQ2극심한 클래스 불균형에서 고차원 비용 민감 손실이 판별력을 향상시키는가?
  • RQ3표준 벤치마크에서 정밀도와 중첩 지표 면에서 VITAL은 최신 추적기와 어떻게 비교되는가?
  • RQ4시간에 걸쳐 지속되는 특징에 집중함으로써 프레임 특정 판별 특징이 아니라 시간적 강건성을 얻을 수 있는가?

주요 결과

  • VITAL은 OTB-2013, OTB-2015, VOT-2016 등의 표준 벤치마크에서 최신 추적기 대비 우수한 성능을 달성한다.
  • 적대적으로 학습된 마스크가 프레임 특정 판별 특징에 대한 의존도를 줄이고 시간적으로 강건한 표현을 촉진한다.
  • 제안된 비용 민감 손실이 학습 중 어려운 음수를 채굴하고 쉬운 음수 우위를 완화하는 데 도움을 준다.
  • 변형 연구에서 무작위 마스킹은 성능을 저하시키는 반면, 적대적으로 학습된 마스킹은 강건성과 정확도를 향상시킨다.
  • 가려짐, 변형, 시점 변화 등 도전적 조건에서 VITAL은 여러 기준선보다 향상된 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.