QUICK REVIEW

[論文レビュー] Type-to-Track: Retrieve Any Object via Prompt-based Tracking

Pha Nguyen, Kha Gia Quach|arXiv (Cornell University)|May 22, 2023

Multimodal Machine Learning Applications被引用数 9

ひとこと要約

論文は、会話型でプロンプト誘導型の grounded 複数物体追跡フレームワーク Type-to-Track を提案し、GroOT データセットと MENDER モデルとともに、より高い効率で最先端の性能を達成します。単一段階のクラス非依存トラッカーを、自然言語プロンプトを使用してビデオ系列の物体を取得・追跡する形式で定式化します。

ABSTRACT

One of the recent trends in vision problems is to use natural language captions to describe the objects of interest. This approach can overcome some limitations of traditional methods that rely on bounding boxes or category annotations. This paper introduces a novel paradigm for Multiple Object Tracking called Type-to-Track, which allows users to track objects in videos by typing natural language descriptions. We present a new dataset for that Grounded Multiple Object Tracking task, called GroOT, that contains videos with various types of objects and their corresponding textual captions describing their appearance and action in detail. Additionally, we introduce two new evaluation protocols and formulate evaluation metrics specifically for this task. We develop a new efficient method that models a transformer-based eMbed-ENcoDE-extRact framework (MENDER) using the third-order tensor decomposition. The experiments in five scenarios show that our MENDER approach outperforms another two-stage design in terms of accuracy and efficiency, up to 14.7% accuracy and 4$ imes$ speed faster.

研究の動機と目的

自然言語プロンプトによる追跡の動機づけを通じて、境界ボックスやカテゴリベースの方法より直感性と応答性を向上させる。
grounded MOT を支えるため、大規模で多様なデータセット GroOT を、ビデオと豊富なテキスト記述とともに作成する。
prompts から複数の物体を追跡する第三次テンソルモデリングを用いた効率的な Transformer ベースのモデル（MENDER）を開発する。
プロンプトベース追跡の評価プロトコルとクラス非依存メトリクスを新たに formulate し、比較可能性を確保する。

提案手法

画像トークン、トラックレット、プロンプトトークンをモデル化する第三次テンソルベースの自己回帰フレームワークを定式化する（Tt = 1D×D×D ×1 enc(It) ×2 ext(Tt−1) ×3 emb(P)）。
MENDER を導入する。これは単一段階のアテンションベースのトラッカーで、相関を単純化して O(n^3) から O(n^2) に抑え、領域-プロンプトとトラックレット-プロンプトの関係を同一視する。
クロスアテンションを用いて領域-トラックレット-プロンプトの相関をモデル化し、オブジェクトデコーダを用いて境界ボックスと信頼度を予測する（式11）。
アライメント損失 LT|P、オブジェクト性損失 LI|T、回帰の LGIoU を用いて訓練し、地上真のマッチングにはハンガリー割り当てを適用する。
テキスト埋め込みには RoBERTa を、视觉トークン生成には Deformable DETR 風のエンコーディングを用いた ResNet-101 バックボーンを活用する（D=512）。
GroOT の5つの設定（標準3設定＋プロンプトベースの2設定）を横断して評価し、二段階ベースライン（MDETR + TFm）および最先端 MOT 手法と比較する。

実験結果

リサーチクエスチョン

RQ1追跡設定において自然言語プロンプトは複数オブジェクトを効果的に指定・取得できるか。
RQ2プロンプトベース入力を用いる単一段階のクラス非依存トラッカーは、 grounded MOT タスクにおいて従来の二段階パイプラインを上回るか。
RQ3名称、同義語、定義、キャプションなど、異なるプロンプト formulations は追跡精度と効率にどのような影響を与えるか。
RQ4Type-to-Track シナリオに対する頑健でクラス非依存の新しいメトリクスと評価プロトコルは何か。
RQ5提案された MENDER アプローチは、さまざまなプロンプト下で長いビデオ系列の多数オブジェクトにスケーラブルか。

主な発見

MENDER は二段階ベースライン設計と比較して精度と効率で優れており、最大14.7%の精度改善と4倍の速度向上を達成。
5つの GroOT 設定において、MENDER は最先端のクラス非依存メトリクス（CA-MOTA、CA-IDF1、CA-HOTA）を達成し、mAP50 も競合的。
単純化された相関表現により最大2倍の速度向上（例：MOT17 cap 設定で 7.8 FPS 対 3.4 FPS）と若干の精度向上を実現。
GroOT は 2 倍規模のより多様な MOT データセットで、833 クラスの物体と 256K 語のキャプションを含み、プロンプトを用いた grounded MOT のよりリッチな評価を可能にする。
MENDER は単一段階設計でアイデンティティ追跡を維持し、検出と追跡特徴抽出の分離の必要性を低減する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。