[論文レビュー] ZoomTrack: Target-aware Non-uniform Resizing for Efficient Visual Tracking
ZoomTrackは、ターゲットが現れる可能性の高い領域を拡大表示しつつ解像度を維持する、ターゲット認識型の非均一リサイズモジュールを導入し、複数のトラッカーで大入力ベースラインとほぼ同等以上の性能で、より速い追跡を可能にします。
Recently, the transformer has enabled the speed-oriented trackers to approach state-of-the-art (SOTA) performance with high-speed thanks to the smaller input size or the lighter feature extraction backbone, though they still substantially lag behind their corresponding performance-oriented versions. In this paper, we demonstrate that it is possible to narrow or even close this gap while achieving high tracking speed based on the smaller input size. To this end, we non-uniformly resize the cropped image to have a smaller input size while the resolution of the area where the target is more likely to appear is higher and vice versa. This enables us to solve the dilemma of attending to a larger visual field while retaining more raw information for the target despite a smaller input size. Our formulation for the non-uniform resizing can be efficiently solved through quadratic programming (QP) and naturally integrated into most of the crop-based local trackers. Comprehensive experiments on five challenging datasets based on two kinds of transformer trackers, \ie, OSTrack and TransT, demonstrate consistent improvements over them. In particular, applying our method to the speed-oriented version of OSTrack even outperforms its performance-oriented counterpart by 0.6% AUC on TNL2K, while running 50% faster and saving over 55% MACs. Codes and models are available at https://github.com/Kou-99/ZoomTrack.
研究の動機と目的
- 入力クロップのリサイズ方法を変更することで、精度を落とさずにトランスフォーマー系トラッカーの速度向上を促す。
- 人間の視覚処理に着想を得た低オーバーヘッドで制御可能な非均一リサイズモジュールを提案する。
- このリサイズモジュールをクロップベースのトラッカーに統合し、複数のベンチマークで評価する。
- 計算量を最小限に抑えつつ、速度志向のトラッカーが性能志向のバリアントとの差を縮めるか、超えることを最小限の計算で示す。
提案手法
- ソースとターゲットクロップ間の非均一リサイズを表す、制御可能な小さなグリッドを定義する。
- グリッド操作を、ズームエネルギーとリジッドエネルギー、および線形制約を含む二次計画法(QP)問題として定式化する。
- 時間的事前情報を中心とした重要度マップを計算してターゲット領域を拡大し、グリッド区間をそれに応じて偏らせる。
- QPを解いてグリッド区間を取得し、ソース画像をサンプリングして非均一リサイズ済みのターゲットパッチを作成する。
- トレーニングと推論の両方で、既存のトラッカー(OSTrack and TransT)とリサイズモジュールを統合する。
実験結果
リサーチクエスチョン
- RQ1ターゲット認識型の非均一リサイズは、計算コストを増加させることなく追跡精度を向上させることができるか?
- RQ2ZoomTrackは多様なデータセットにおいて、速度志向と性能志向のトラッカー間の性能ギャップを縮小するか?
- RQ3過度の変形や切り抜きを避けつつ、リサイズが推定されるターゲット領域をどのように拡大すべきか?
- RQ4このアプローチは異なるトランスフォーマー系トラッカーに一般化可能か?
主な発見
- ZoomTrackは5つの難易度の高いデータセット全体でOSTrackとTransTのベースラインを一貫して改善する。
- 速度志向のOSTrackにZoomTrackを適用すると、対応する大入力・性能志向バリアントと競合するかそれを上回る性能を示しつつ、MACsを55%以上削減し、特定のベンチマークで約50%高速に動作する。
- 本手法はGOT-10k、LaSOT、LaSOT ext、TNL2Kで顕著な改善を達成し、TrackingNetでは文脈依存的な利益が小〜中程度で提供される。
- 非均一リサイズモジュールはCPU専用の小さなオーバーヘッド(約1.58 ms)を生じるが、同じまたは小さい入力サイズでの均一リサイズより高い精度を達成する。
- アブレーション研究は、制御可能な拡大(gamma ~1.5)、変形に対する安定性、訓練時・推論時いずれか、または両方の文脈での適用時の有効性を示す。
- このアプローチは、パラメータ共有とデータセット固有の調整なしで、さまざまなトラッカー(OSTrack and TransT)と統合できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。