[論文レビュー] Semi-TCL: Semi-Supervised Track Contrastive Representation Learning
Semi-TCL は検出されたインスタンスをトラック表現と照合することでトラックレベルのコントラスト埋め込みを学習し、ラベルあり・ラベルなし動画からの半監視学習を可能にして、マルチオブジェクト追跡を向上させます。
Online tracking of multiple objects in videos requires strong capacity of modeling and matching object appearances. Previous methods for learning appearance embedding mostly rely on instance-level matching without considering the temporal continuity provided by videos. We design a new instance-to-track matching objective to learn appearance embedding that compares a candidate detection to the embedding of the tracks persisted in the tracker. It enables us to learn not only from videos labeled with complete tracks, but also unlabeled or partially labeled videos. We implement this learning objective in a unified form following the spirit of constrastive loss. Experiments on multiple object tracking datasets demonstrate that our method can effectively learning discriminative appearance embeddings in a semi-supervised fashion and outperform state of the art methods on representative benchmarks.
研究の動機と目的
- オンライン multi-object tracking (MOT) のための頑健な外観埋め込みの学習を促進する。
- 動画の時間的一貫性を活用してインスタンス表現を改善する via インスタンス-to-track マッチング。
- pseudo-tracks を用いたラベルなし動画を活用して半教師あり学習を可能にする。
- CenterNet 上に構築された End-to-End MOT フレームワークに TCL を統合する。
- Semi-TCL が MOT ベンチマークで最先端の結果を達成することを示す。
提案手法
- tracklet 埋め込み上の aggregation G を用いてインスタンス-to-track 距離を定義する。
- Tracklet Contrastive Learning (TCL) を提案し、インスタンスとサブトラック上のコントラスト損失を用いる: L_TCL = sum_i (-1/|S(i)|) sum_{\tilde{T}_j in S(i)} exp(f(I_i) · g̃_j / τ) / sum_{\tilde{T}_l in \tilde{T}} exp(f(I_i) · g̃_l / τ).
- 単純な平均化集約 G を用いて tracklet 特徴から g_j を計算する。
- ラベル付きと疑似ラベル付きの無ラベル動画の両方で訓練し、tracks から sub-tracks をサンプリングし、原始的なトラッカーを用いて疑似ラベルを生成する。
- L_joint = L_det + L_id とするジョイント検出+ID 損失を使用し、L_id は TCL で訓練される。
実験結果
リサーチクエスチョン
- RQ1インスタンス-to-track コントラスト目的は MOT の外観埋め込み学習を、インスタンス間目的より改善するか?
- RQ2TCL は MOT のための無ラベル動画を活用した半教師あり学習を効果的に可能にするか?
- RQ3バッチサイズと無ラベル動画データの使用は MOT の性能にどう影響するか?
- RQ4事前学習戦略(CE 対 コントラスト) の最終的な MOT 性能に対する影響は?
- RQ5Semi-TCL は標準 MOT ベンチマーク(IDF1, MOTA, IDS)において最先端と比較してどうか?
主な発見
| Methods | IDF1 | MOTA | IDS | MT | ML | Frag |
|---|---|---|---|---|---|---|
| MOT15 FairMOT | 64.7 | 60.6 | 591 | 343 | 79 | 1731 |
| MOT15 GSDT | 64.6 | 60.7 | 477 | 339 | 76 | 1705 |
| MOT15 TubeTK | 53.1 | 58.4 | 854 | 283 | 130 | 1194 |
| MOT15 Semi-TCL | 64.9 | 60.6 | 551 | 344 | 88 | 1687 |
| MOT16 DeepSort | 62.2 | 61.4 | 781 | 249 | 138 | 2008 |
| MOT16 TubeTK | 59.4 | 64.0 | 1117 | 254 | 147 | 1366 |
| MOT16 CTracker | 57.2 | 67.6 | 1897 | 250 | 175 | 3112 |
| MOT16 GSDT | 69.2 | 66.7 | 959 | 293 | 144 | 2596 |
| MOT16 FairMOT | 72.8 | 74.9 | 815 | 306 | 127 | 2399 |
| MOT16 Semi-TCL | 73.9 | 74.8 | 925 | 322 | 130 | 2569 |
| MOT17 SST | 49.5 | 52.4 | 8431 | 504 | 723 | 14797 |
| MOT17 TubeTK | 58.6 | 63.0 | 4137 | 735 | 468 | 5727 |
| MOT17 Ctr.Track | 64.7 | 67.8 | 3039 | 816 | 579 | 6102 |
| MOT17 CTracker | 57.4 | 66.6 | 5529 | 759 | 570 | 9114 |
| MOT17 GSDT | 66.5 | 73.2 | 3891 | 981 | 411 | 8604 |
| MOT17 FairMOT | 72.3 | 73.7 | 3303 | 1017 | 408 | 8073 |
| MOT17 Semi-TCL | 73.3 | 73.3 | 2790 | 972 | 441 | 8010 |
| MOT20 FairMOT | 67.3 | 61.8 | 5243 | 855 | 94 | 7874 |
| MOT20 GSDT | 67.5 | 67.1 | 3131 | 660 | 164 | 9875 |
| MOT20 Semi-TCL | 70.1 | 65.2 | 4139 | 761 | 131 | 8508 |
- Semi-TCL は MOT15、MOT16、MOT17、MOT20 のベンチマークで IDF1 の最先端を達成。
- MOT16 および MOT17 で、Semi-TCL は従来の SOTA より約 1% の IDF1 改善。
- MOT20 では Semi-TCL が IDF1 を 67.5% から 70.1% に引き上げ。
- 無ラベル動画を用いた tracklet 密度に基づくマイニングは IDF1 をさらに向上させる(例: AVA-MEVA の組み合わせ)。
- TCL は cross-entropy およびインスタンス間対照学習のベースラインより IDF1 が優れている。
- より大きなバッチサイズ(32, 96, 144)は一般に IDF1 と MOTA を改善し、対照的なペアが学習を助けることを示す。
- Semi-TCL は半教師データの恩恵を受ける;対照的前学習(SCL)は CE 前学習より大きな IDF1 の利得を生む。
- MOT シーンに類似した MEVA/AVA ドメインの無ラベルデータは、異なるドメインよりも大きな利得をもたらす。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。