QUICK REVIEW

[논문 리뷰] Unsupervised Deep Tracking

Ning Wang, Yibing Song|arXiv (Cornell University)|2019. 04. 03.

Video Surveillance and Tracking Methods참고 문헌 54인용 수 31

한 줄 요약

이 논문은 지도 학습이 필요한 레이블이 없는 대규모 비디오 데이터를 사용하여 전진-후진 추적 일관성 손실을 기반으로 시아모이즈 상관 필터 네트워크를 훈련시키는 비지도 딥 추적 방법을 제안한다. 이는 어떤 지도 학습 데이터도 필요로 하지 않으면서도 완전히 지도 학습된 추적기 수준의 성능을 달성한다. 이 방법은 궤적 일관성, 다중 프레임 검증, 비용 민감한 손실을 활용하여 시각 추적에서 비지도 표현 학습을 향상시킨다.

ABSTRACT

We propose an unsupervised visual tracking method in this paper. Different from existing approaches using extensive annotated data for supervised learning, our CNN model is trained on large-scale unlabeled videos in an unsupervised manner. Our motivation is that a robust tracker should be effective in both the forward and backward predictions (i.e., the tracker can forward localize the target object in successive frames and backtrace to its initial position in the first frame). We build our framework on a Siamese correlation filter network, which is trained using unlabeled raw videos. Meanwhile, we propose a multiple-frame validation method and a cost-sensitive loss to facilitate unsupervised learning. Without bells and whistles, the proposed unsupervised tracker achieves the baseline accuracy of fully supervised trackers, which require complete and accurate labels during training. Furthermore, unsupervised framework exhibits a potential in leveraging unlabeled or weakly labeled data to further improve the tracking accuracy.

연구 동기 및 목표

비용이 많이 들고 수작업으로 레이블을 붙인 훈련 데이터에 의존하지 않는 시각 추적 방법을 개발하는 것.
전진 추적과 후진 추적 간 궤적 일관성이 깊이 있는 특징 학습을 위한 자기 지도 신호로 작용할 수 있는지 조사하는 것.
노이즈가 있거나 실패한 후진 궤적을 다루기 위해 다중 프레임 검증과 비용 민감한 손실을 활용하여 비지도 추적 성능을 향상시키는 것.
인터넷 규모의 레이블이 없는 비디오에서 비지도 사전 훈련을 수행하면 표준 벤치마크에서 지도 학습 기반 모델과 경쟁 가능한 추적 정확도를 달성할 수 있는지 평가하는 것.

제안 방법

프레임워크는 전진 및 후진 추적 일관성에 기반한 비지도 손실을 통해 훈련되는 시아모이즈 상관 필터 기반 백본을 사용한다.
전진 추적은 이후 프레임에서의 대상 위치를 예측한다; 후진 추적은 마지막 프레임에서 시작하여 초기 위치를 예측한다.
일관성 손실은 초기 진짜 박스와 후진 추적된 위치 간의 편차를 측정하여 비지도 지도 신호를 형성한다.
다중 프레임 검증은 전진 및 후진 궤적 간의 이질성을 증가시켜 검증 단계에서 잘못된 양성 결과를 줄인다.
노이즈가 있거나 잘못 예측된 샘플의 영향을 줄이기 위해 비용 민감한 손실이 도입된다.
훈련 중에 무작위로 잘린 경계 상자(Bounding box)를 사용하여 초기화하여 부분적 또는 완전하지 않은 대상에 대한 강건성을 유도한다.

실험 결과

연구 질문

RQ1전진-후진 추적 일관성이 지도 학습 데이터가 전혀 없는 상황에서 깊이 있는 시각 추적기 학습을 위한 타당한 자기 지도 신호로 작용할 수 있는가?
RQ2제안된 비지도 훈련 파이프라인은 대규모 레이블이 없는 비디오에서 강력한 시각 표현을 학습하는 데 얼마나 효과적인가?
RQ3다중 프레임 검증과 비용 민감한 손실을 통합함으로써 비지도 추적 훈련의 신뢰성을 향상시킬 수 있는가?
RQ4레이블이 없는 데이터에서 비지도 사전 훈련을 수행하면 표준 벤치마크에서 완전히 지도 학습된 추적기와 경쟁 가능한 성능을 달성할 수 있는가?
RQ5추가적인 약한 레이블이 있거나 레이블이 없는 데이터를 활용하면 비지도 프레임워크를 더 향상시킬 수 있는가?

주요 결과

제안된 비지도 추적기(Unevenly-Debiased Tracker, UDT)는 OTB-2015 벤치마크에서 정확도 0.54를 기록하여 완전히 지도 학습된 SiamFC 및 기타 최신 추적기와 동일한 성능을 달성한다.
VOT2016 벤치마크에서 UDT는 EAO 점수 0.226을 기록하여 SiamFC 및 DSST와 같은 지도 학습 기반 모델과 유사한 성능을 보였다.
향상된 UDT+ 버전은 VOT2016에서 EAO 0.301을 기록하여 SA-Siam 및 MemTrack과 같은 여러 지도 학습 추적기들을 초월했다.
속성 분석 결과, UDT는 대부분의 과제에서 잘 수행되지만, 조명 변화, 가림, 고속 운동에서는 제한된 지도 신호로 인해 뒤처지는 경향을 보였다.
정성적 결과는 UDT가 온라인 적응이나 지도 없이도 Ironman 및 Diving와 같은 도전적인 시퀀스를 효과적으로 추적할 수 있음을 보여주었다.
비지도 프레임워크는 추가적인 레이블이 없는 데이터를 결합할 경우 추적 정확도 향상 잠재력을 보이며, 확장성과 일반화 이점을 가짐을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.