QUICK REVIEW

[논문 리뷰] TrackingNet: A Large-Scale Dataset and Benchmark for Object Tracking in the Wild

Matthias Müller, Adel Bibi|arXiv (Cornell University)|2018. 03. 28.

Video Surveillance and Tracking Methods참고 문헌 29인용 수 49

한 줄 요약

TrackingNet은 대규모로 밀집 주석이 달린 추적 데이터셋을 처음으로 제시합니다(30k개 비디오, 14M 프레임). 비공개 테스트 세트와 온라인 평가를 통해 심층 추적기 학습과 공정한 벤치마크를 가능하게 하며, TrackingNet에서의 프리트레이닝이 다른 데이터셋의 성능을 향상시키고 야생에서의 추적이 여전히 도전적임을 보여줍니다.

ABSTRACT

Despite the numerous developments in object tracking, further development of current tracking algorithms is limited by small and mostly saturated datasets. As a matter of fact, data-hungry trackers based on deep-learning currently rely on object detection datasets due to the scarcity of dedicated large-scale tracking datasets. In this work, we present TrackingNet, the first large-scale dataset and benchmark for object tracking in the wild. We provide more than 30K videos with more than 14 million dense bounding box annotations. Our dataset covers a wide selection of object classes in broad and diverse context. By releasing such a large-scale dataset, we expect deep trackers to further improve and generalize. In addition, we introduce a new benchmark composed of 500 novel videos, modeled with a distribution similar to our training dataset. By sequestering the annotation of the test set and providing an online evaluation server, we provide a fair benchmark for future development of object trackers. Deep trackers fine-tuned on a fraction of our dataset improve their performance by up to 1.6% on OTB100 and up to 1.7% on TrackingNet Test. We provide an extensive benchmark on TrackingNet by evaluating more than 20 trackers. Our results suggest that object tracking in the wild is far from being solved.

연구 동기 및 목표

심층 추적기를 학습시키기 위한 대규모의 밀집 주석 추적 데이터셋을 제공한다.
평가를 위한 공정하고 격리된 테스트 세트와 온라인 평가 서버를 도입한다.
밀집 추적 라벨을 용이하게 하는 데이터셋 특성과 주석 전략을 분석한다.
현대의 추적기 전반에 걸친 확장된 기준 벤치마크를 제공하고 데이터셋 간 전이 효과를 평가한다.
다른 데이터셋에서의 성능 향상을 위한 TrackingNet에서의 프리트레이닝 효과를 보여준다.

제안 방법

YouTube Bounding Boxes(YT-BB)에서 TrackingNet을 구성하여 트래커로 밀집하게 채워진 1 Hz 주석을 가진 30,132개 비디오와 14,205,677프레임의 학습 세트를 생성한다.
YouTube CC 라이선스 콘텐츠(YT-CC)에서 511개 비디오의 테스트 세트를 만들고 Amazon Mechanical Turk를 통해 결정 규칙 및 VATIC 기반 주석 도구를 사용하여 주석을 달았다.
테스트 비디오에 대해 추적 도전을 특징짓는 15 속성 스키마를 정의하되, 5개는 자동으로, 10개는 수동 확인 속성이다.
온라인 서버에서 One Pass Evaluation(OPE)으로 추적기를 평가하고, IoU 기반 성공(AUC), 정밀도, 그리고 스케일 보정을 위한 정규화된 정밀도 지표(Pnorm)를 보고한다.
TrainingNet과 TestNet 전반에서 CF 기반, 딥러닝, Siamese 등 다양한 추적기를 평가하여 확장된 벤치마크를 제공한다.
데이터의 일부를 사용해 SiameseFC 기반 추적기를 재학습시켜 TrackingNet에서의 학습 효과를 조사하고 성능 향상을 측정한다.

실험 결과

연구 질문

RQ1실제적으로 규모가 큰 밀집 주석 추적 데이터셋이 심층 추적기 학습 및 야생에서의 일반화에 향상을 가져올 수 있는가?
RQ2일치하는 분포를 가진 격리된 테스트 세트가 추적기 간의 공정하고 비교 가능한 벤치마킹을 가능하게 하는가?
RQ3TrackingNet의 특징과 속성 중 현실 세계의 추적 난이도를 반영하는 것은 무엇인가?
RQ4TrackingNet에서의 프리트레이닝이 OTB100과 같은 다른 벤치마크로의 전이 및 성능 향상에 어떻게 기여하는가?
RQ5TrackingNet에서 평가될 때 다양한 추적 방법 간의 성능 구도는 어떠한가?

주요 결과

TrackingNet은 30,132개의 학습 비디오와 511개의 테스트 비디오를 포함하며, 총 14,205,677 프레임이 수직 방향 바운딩 박스로 주석되어 있다.
격리된 테스트 세트와 온라인 평가 서버는 학습 데이터를 넘어서 트래커의 공정한 벤치마킹을 가능하게 한다.
TrackingNet에서의 프리트레이닝은 다른 데이터셋에서의 성능을 최대 1.7%(TrackingNet 테스트) 및 최대 1.6%(OTB100)까지 향상시킬 수 있다.
평가된 20개 이상 추적기 중 MDNet(온라인 파인튜닝)이 TrackingNet에서 가장 높은 성능을 달성하지만 실행 속도가 느리며, 새로운 딥러닝 추적기(CFNet, SiameseFC)는 TrackingNet 프리트레이닝의 이점을 얻는다.
TrackingNet의 평가 결과 야생에서의 물체 추적은 여전히 해결되지 않았으며, 테스트 세트에서의 최고 성능은 약 60%의 성공률로 OTB 등 전통 벤치마크보다 낮다.
저자들은 추적기가 가장 어려움을 겪는 부분을 나타내는 속성별 분석(예: 평면 내 회전, 저해상도, 완전 가려짐)을 제공한다.]
table_headers: []
table_rows: []

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.