QUICK REVIEW

[论文解读] Type-to-Track: Retrieve Any Object via Prompt-based Tracking

Pha Nguyen, Kha Gia Quach|arXiv (Cornell University)|May 22, 2023

Multimodal Machine Learning Applications被引用 9

一句话总结

本论文提出 Type-to-Track，一种对话式、由提示引导的用于地面化多目标跟踪的框架，以及 GroOT 数据集和 MENDER 模型，在效率更高的情况下达到最新性能。它构成一个单阶段、与类别无关的跟踪器，使用自然语言提示来检索并在视频序列中跟踪对象。

ABSTRACT

One of the recent trends in vision problems is to use natural language captions to describe the objects of interest. This approach can overcome some limitations of traditional methods that rely on bounding boxes or category annotations. This paper introduces a novel paradigm for Multiple Object Tracking called Type-to-Track, which allows users to track objects in videos by typing natural language descriptions. We present a new dataset for that Grounded Multiple Object Tracking task, called GroOT, that contains videos with various types of objects and their corresponding textual captions describing their appearance and action in detail. Additionally, we introduce two new evaluation protocols and formulate evaluation metrics specifically for this task. We develop a new efficient method that models a transformer-based eMbed-ENcoDE-extRact framework (MENDER) using the third-order tensor decomposition. The experiments in five scenarios show that our MENDER approach outperforms another two-stage design in terms of accuracy and efficiency, up to 14.7% accuracy and 4$ imes$ speed faster.

研究动机与目标

用自然语言提示驱动追踪，以提升相较于边框框选或基于类别的方法的直觉性和响应性。
创建一个大规模、多样化的数据集（GroOT），包含视频和丰富的文本描述，以支持对 grounded MOT。
开发一个高效的基于变换器的模型（MENDER），通过三阶张量建模，从提示中跟踪多目标。
提出新的评估协议和类别无关的指标，以评估基于提示的跟踪。

提出的方法

提出一个基于三阶张量的自回归框架，用于建模图像标记、跟踪段和提示标记（Tt = 1D×D×D ×1 enc(It) ×2 ext(Tt−1) ×3 emb(P)).
推出 MENDER，这是一个单阶段的基于注意力的跟踪器，通过使区域-提示与跟踪段-提示之间的关系等价，将相关性复杂度从 O(n^3) 降至 O(n^2)。
使用交叉注意力来建模区域-跟踪段-提示之间的相关性，以及一个对象解码器来预测边界框和置信度（Eq. 11）。
按对齐损失 LT|P、对象性损失 LI|T，以及回归的 LGIoU 进行训练，遵循用于地面真值匹配的匈牙利分配。
利用 RoBERTa 的文本嵌入与一个 ResNet-101 主干，采用 Deformable DETR 风格的编码生成视觉标记（D=512）。
在五个 GroOT 设置下进行评估（三个标准设置加上两个基于提示的提示），并与两阶段基线（MDETR + TFm）及最先进的 MOT 方法进行比较。

实验结果

研究问题

RQ1在跟踪设置中，自然语言提示是否能够有效地指定并随时间检索多个对象？
RQ2在基于提示输入的单阶段、类别无关跟踪器是否优于传统的两阶段管线在 grounded MOT 任务上的表现？
RQ3不同的提示形式（名称、同义词、定义、字幕）如何影响跟踪准确性和效率？
RQ4针对 Type-to-Track 场景，哪些鲁棒的、类别无关的度量与评估协议是可行的？
RQ5提出的 MENDER 方法是否能扩展到具有多对象的长视频序列，且在各种提示下保持可扩展性？

主要发现

MENDER 在准确性和效率上优于两阶段基线设计，准确性提升可达 14.7%，速度提升约 4×。
在五个 GroOT 设置中，MENDER 达到最先进的类别无关度量（CA-MOTA、CA-IDF1、CA-HOTA），并在 mAP50 方面具有竞争力。
简化后的相关性表示可带来高达 2× 的速度提升（例如 MOT17 cap 设置下 7.8 FPS 对 3.4 FPS），且准确性略有提升。
GroOT 是一个 2× 更大且更丰富的 MOT 数据集，包含 833 个对象类别和 256K 字数的字幕，便于对带提示的 grounded MOT 的更丰富评估。
MENDER 通过单阶段设计维持身份跟踪，减少了对单独检测和跟踪特征提取的需求。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。