[論文レビュー] CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos
CoTracker3は、複数の実写ビデオ教師からの疑似ラベルで学習する軽量な点追跡モデルを導入し、実データを桁違いに少なく抑えつつ最先端の結果と堅牢な遮蔽処理を実現します。
Most state-of-the-art point trackers are trained on synthetic data due to the difficulty of annotating real videos for this task. However, this can result in suboptimal performance due to the statistical gap between synthetic and real videos. In order to understand these issues better, we introduce CoTracker3, comprising a new tracking model and a new semi-supervised training recipe. This allows real videos without annotations to be used during training by generating pseudo-labels using off-the-shelf teachers. The new model eliminates or simplifies components from previous trackers, resulting in a simpler and often smaller architecture. This training scheme is much simpler than prior work and achieves better results using 1,000 times less data. We further study the scaling behaviour to understand the impact of using more real unsupervised data in point tracking. The model is available in online and offline variants and reliably tracks visible and occluded points.
研究の動機と目的
- 合成と実写ビデオ間の実データ分布シフトの下で、点追跡を改善する動機付け。
- 競争力のある精度を維持しつつ、より単純でデータ効率の高い追跡モデルを開発する。
- 複数の教師トラッカーからの疑似ラベルを用いた半教師あり学習を活用し、ラベルなしの実写ビデオを活用する。
- データ規模拡大と、実写のラベルなしデータを用いた訓練が性能と頑健性に与える影響を調査する。
提案手法
- 柔軟な追跡のためにオフラインとオンラインのバリアントを備えたCoTracker3を提案する。
- クエリフレームの近傍とフレーム間の追跡近傍との間で、マルチスケールの密な特徴マップと4D相関を計算する。
- 4D相関特徴を処理する簡易MLPを用い、それをトランスフォーマーに入力して反復的な更新を行う。
- 合成データのみで訓練された複数の固定教師トラッカーによって生成された疑似ラベルを用いて、学生モデルを訓練する。
- ランダムなフレームでSIFTを用いてクエリ点をサンプリングし、追跡可能な点を選択し低品質なアノテーションを回避する。
- 頑健なHuberベースのトラック損失と信頼度・可視性の二値交差エントロピー損失を含む損失関係のセットを用い、遮蔽点を重み付けダウンする。
実験結果
リサーチクエスチョン
- RQ1合成データ教師からの疑似ラベルに導かれたとき、点追跡器は実データなしの実動画からどれだけ学習できるか?
- RQ2点追跡の疑似ラベリング訓練のデータ効率とスケーリング挙動はどうなるか?
- RQ3アーキテクチャ部品の単純化(例: グローバルマッチの削除)が、特に遮蔽下で追跡性能を低下させるか、保持するか?
- RQ4オンラインとオフラインの訓練 regimeを同一の訓練プロトコルの下で効果的に統合できるか?
- RQ5クロストラック注意と複数教師の疑似ラベルが、遮蔽された点と見える点の追跡に与える影響はどのようか?
主な発見
- CoTracker3のオンライン版とオフライン版は、Kubricデータのみで訓練した場合にTAP-Vidベンチマークで従来の追跡器を上回り、さらに15k本の実写ビデオで追加訓練すると最先端を上回る。
- オンライン/オフラインモデルは遮蔽処理が強力で、特に長期および遮蔽追跡でオフライン版が優れている。
- クロストラック注意は遮蔽追跡を大幅に改善し、ベースラインに比べて顕著な改善を示す。
- 合成データで訓練された複数の教師からの疑似ラベルを用いることで、学生は教師を上回り、BootsTAPIRに比べ実データ量を大幅に抑えて実動画で高性能を達成する。
- CoTracker3を自身の予測で自己訓練すると、TAP-Vidの指標が平均約1.2ポイント向上する。
- 本手法は実データのラベルなしデータの量に比例してスケールし、数万本規模のビデオで利益が見られ、データ効率は大規模なBootsTAPIR訓練と比較して高いまま維持される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。