[論文レビュー] ByteTrack: Multi-Object Tracking by Associating Every Detection Box
ByteTrack は、スコアが高い検出ボックスだけでなく、ほぼすべての検出ボックスを使用する単純なアソシエーション戦略を導入し、MOT を改善します。これにより、複数のベンチマークで最先端の結果を達成します。
Multi-object tracking (MOT) aims at estimating bounding boxes and identities of objects in videos. Most methods obtain identities by associating detection boxes whose scores are higher than a threshold. The objects with low detection scores, e.g. occluded objects, are simply thrown away, which brings non-negligible true object missing and fragmented trajectories. To solve this problem, we present a simple, effective and generic association method, tracking by associating almost every detection box instead of only the high score ones. For the low score detection boxes, we utilize their similarities with tracklets to recover true objects and filter out the background detections. When applied to 9 different state-of-the-art trackers, our method achieves consistent improvement on IDF1 score ranging from 1 to 10 points. To put forwards the state-of-the-art performance of MOT, we design a simple and strong tracker, named ByteTrack. For the first time, we achieve 80.3 MOTA, 77.3 IDF1 and 63.1 HOTA on the test set of MOT17 with 30 FPS running speed on a single V100 GPU. ByteTrack also achieves state-of-the-art performance on MOT20, HiEve and BDD100K tracking benchmarks. The source code, pre-trained models with deploy versions and tutorials of applying to other trackers are released at https://github.com/ifzhang/ByteTrack.
研究の動機と目的
- MOT システムにおいて、低スコアのボックスを捨てることによって生じる検出欠落と断片化した軌跡の緩和を動機づける。
- トラックレットの類似性を介して高スコアと低スコアの検出の両方を活用する、汎用的なデータアソシエーション手法を提案する。
- 高性能検出器と BYTE を組み合わせて、強力で単純なトラッカー(ByteTrack)を設計する。
- さまざまなトラッカーと標準的な MOT ベンチマークにおける ByteTrack の有効性を示す。
提案手法
- 閾値を用いて検出を高スコア群と低スコア群に分割し、二段階のデータアソシエーションを適用する。
- まず、モーション/外観類似性(カルマンフィルター+IoUまたはRe-ID特徴)を使用して高スコア検出と既存のトラックレットを関連付ける。
- 次に、未照合のトラックレットと低スコア検出を IoU を用いて関連付け、遮蔽されたオブジェクトを回復し背景を除外する。
- 照合されなかった低スコア検出を削除し、固定フレーム幅(例:30フレーム)で失われたトラックを管理する。
- コアアーキテクチャを変更せずに性能を向上させるため、他のトラッカー(例:FairMOT)と BYTE を組み合わせることをオプションで検討する。
実験結果
リサーチクエスチョン
- RQ1二段階のアソシエーションを通じて低スコア検出を組み込むことで、MOT における見逃し物体やIDスイッチを減らせますか?
- RQ2BYTE ベースの二段階アソシエーションを使用すると、さまざまなトラッカーとデータセットで MOTA/IDF1/HOTA が改善されますか?
- RQ3検出スコア閾値の異なる場合や、遮蔽、モーションブラー、混雑したシーンなどの難しい状況に対して、BYTE アプローチはどれほど堅牢ですか?
- RQ4プライベート検出器プロトコルの下で、MOT17、MOT20、HiEve、BDD100K に対する最先端手法と比較した ByteTrack の性能はどうですか?
主な発見
- 9つのトラッカーに BYTE を適用すると、ベンチマーク全体で MOTA、IDF1、および IDs が一貫して改善される。
- ByteTrack は MOT17 テストセットで 30 FPS、単一 V100 GPU で 80.3 MOTA、77.3 IDF1、63.1 HOTA を達成。
- MOT17 では ByteTrack が 30 FPS で首位、2 位との差は顕著。
- MOT20 では ByteTrack が 77.8 MOTA、75.2 IDF1、61.3 HOTA を達成し、混雑したシーンで競合より優れている。
- 表は、二段階の二次関連付けの際に相似性として IoU のみを使用しても ByteTrack の性能向上があることを示している。
- ByteTrack はさまざまなトラッカーと組み合わせたときに強い汎化能力を示し、検出スコア閾値にも頑健である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。