[논문 리뷰] Semi-TCL: Semi-Supervised Track Contrastive Representation Learning
Semi-TCL은 탐지된 인스턴스를 트랙 표현에 맞춰 트랙 수준의 대조 임베딩을 학습하며, 라벨이 있는 비디오와 라벨이 없는 비디오로부터 반지도학습을 가능하게 하여 다중 객체 추적(MOT)을 개선합니다.
Online tracking of multiple objects in videos requires strong capacity of modeling and matching object appearances. Previous methods for learning appearance embedding mostly rely on instance-level matching without considering the temporal continuity provided by videos. We design a new instance-to-track matching objective to learn appearance embedding that compares a candidate detection to the embedding of the tracks persisted in the tracker. It enables us to learn not only from videos labeled with complete tracks, but also unlabeled or partially labeled videos. We implement this learning objective in a unified form following the spirit of constrastive loss. Experiments on multiple object tracking datasets demonstrate that our method can effectively learning discriminative appearance embeddings in a semi-supervised fashion and outperform state of the art methods on representative benchmarks.
연구 동기 및 목표
- 온라인 다중 객체 추적(MOT)을 위한 견고한 appearance 임베딩 학습 동기 부여.
- 비디오의 시간적 연속성을 활용하여 인스턴스 표현을 인스턴스-대-트랙 매칭으로 개선.
- pseudo-트랙을 활용한 라벨이 없는 비디오를 활용한 반지도학습 enabled.
- CenterNet 기반의 엔드 투 엔드 MOT 프레임워크에 TCL을 통합.
- Semi-TCL이 MOT 벤치마크에서 최첨단 결과를 달성함을 보임.
제안 방법
- 트랙렛 임베딩에 대한 집계 G를 사용하여 인스턴스-대-트랙 거리를 정의한다.
- 인스턴스와 서브-트랙에 대한 대조 손실로 Tracklet Contrastive Learning(TCL)을 제안합니다: L_TCL = sum_i (-1/|S(i)|) sum_{\tilde{T}_j in S(i)} exp(f(I_i) · g̃_j / τ) / sum_{\tilde{T}_l in \tilde{T}} exp(f(I_i) · g̃_l / τ).
- 트랙렛 특징으로부터 g_j를 계산하기 위한 간단한 평균화 집계 G를 사용합니다.
- 레이블이 있는 비디오와 pseudo-labeled unlabeled 비디오를 모두 사용하여 트랙에서 서브-트랙을 샘플링하고 원시 추적기를 사용해 pseudo-label을 생성합니다.
- L_det + L_id로 구성된 공동 탐지+ID 손실 L_joint를 사용하며, L_id는 TCL로 학습됩니다.
실험 결과
연구 질문
- RQ1인스턴스-대-트랙 대조 목표가 MOT를 위한 appearance 임베딩 학습을 인스턴스-대-인스턴스 목표보다 개선할 수 있는가?
- RQ2,
주요 결과
| Methods | IDF1 | MOTA | IDS | MT | ML | Frag |
|---|---|---|---|---|---|---|
| MOT15 FairMOT | 64.7 | 60.6 | 591 | 343 | 79 | 1731 |
| MOT15 GSDT | 64.6 | 60.7 | 477 | 339 | 76 | 1705 |
| MOT15 TubeTK | 53.1 | 58.4 | 854 | 283 | 130 | 1194 |
| MOT15 Semi-TCL | 64.9 | 60.6 | 551 | 344 | 88 | 1687 |
| MOT16 DeepSort | 62.2 | 61.4 | 781 | 249 | 138 | 2008 |
| MOT16 TubeTK | 59.4 | 64.0 | 1117 | 254 | 147 | 1366 |
| MOT16 CTracker | 57.2 | 67.6 | 1897 | 250 | 175 | 3112 |
| MOT16 GSDT | 69.2 | 66.7 | 959 | 293 | 144 | 2596 |
| MOT16 FairMOT | 72.8 | 74.9 | 815 | 306 | 127 | 2399 |
| MOT16 Semi-TCL | 73.9 | 74.8 | 925 | 322 | 130 | 2569 |
| MOT17 SST | 49.5 | 52.4 | 8431 | 504 | 723 | 14797 |
| MOT17 TubeTK | 58.6 | 63.0 | 4137 | 735 | 468 | 5727 |
| MOT17 Ctr.Track | 64.7 | 67.8 | 3039 | 816 | 579 | 6102 |
| MOT17 CTracker | 57.4 | 66.6 | 5529 | 759 | 570 | 9114 |
| MOT17 GSDT | 66.5 | 73.2 | 3891 | 981 | 411 | 8604 |
| MOT17 FairMOT | 72.3 | 73.7 | 3303 | 1017 | 408 | 8073 |
| MOT17 Semi-TCL | 73.3 | 73.3 | 2790 | 972 | 441 | 8010 |
| MOT20 FairMOT | 67.3 | 61.8 | 5243 | 855 | 94 | 7874 |
| MOT20 GSDT | 67.5 | 67.1 | 3131 | 660 | 164 | 9875 |
| MOT20 Semi-TCL | 70.1 | 65.2 | 4139 | 761 | 131 | 8508 |
- Semi-TCL은 MOT15, MOT16, MOT17, MOT20 벤치마크에서 IDF1 최첨단 성능을 달성합니다.
- MOT16 및 MOT17에서 Semi-TCL은 이전의 SOTA 대비 약 1%의 IDF1 개선을 기록합니다.
- MOT20에서 Semi-TCL은 IDF1을 67.5%에서 70.1%로 상승시킵니다.
- 라벨이 없는 비디오를 트랙렛 밀도 기반 마이닝과 함께 사용하면 IDF1이 더 상승합니다(예: AVA-MEVA 조합).
- TCL은 IDF1에서 교차 엔트로피 및 인스턴스-대-인스턴스 대조 baselines보다 우수합니다.
- 더 큰 배치 크기(32, 96, 144)는 일반적으로 IDF1 및 MOTA를 향상시키며, 더 많은 대조 쌍이 학습에 도움이 됨을 시사합니다.
- Semi-TCL은 반지도학습 데이터의 이점을 누리며, 대비형 사전학습(SCL)이 CE 사전학습보다 더 큰 IDF1 이득을 제공합니다.
- MOT 장면과 유사한 MEVA/AVA 도메인의 비 labeled 데이터에서 더 큰 이득이 발생합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.