QUICK REVIEW

[论文解读] Unified Sequence-to-Sequence Learning for Single- and Multi-Modal Visual Object Tracking

Xin Chen, Kang, Ben|arXiv (Cornell University)|Apr 27, 2023

Video Surveillance and Tracking Methods被引用 16

一句话总结

SeqTrack 将视觉跟踪视为一个自回归序列生成任务，使用一个简单的编码器-解码器 Transformer，移除了复杂的头部和损失；在多个基准测试上达到最先进的结果。

ABSTRACT

In this paper, we introduce a new sequence-to-sequence learning framework for RGB-based and multi-modal object tracking. First, we present SeqTrack for RGB-based tracking. It casts visual tracking as a sequence generation task, forecasting object bounding boxes in an autoregressive manner. This differs from previous trackers, which depend on the design of intricate head networks, such as classification and regression heads. SeqTrack employs a basic encoder-decoder transformer architecture. The encoder utilizes a bidirectional transformer for feature extraction, while the decoder generates bounding box sequences autoregressively using a causal transformer. The loss function is a plain cross-entropy. Second, we introduce SeqTrackv2, a unified sequence-to-sequence framework for multi-modal tracking tasks. Expanding upon SeqTrack, SeqTrackv2 integrates a unified interface for auxiliary modalities and a set of task-prompt tokens to specify the task. This enables it to manage multi-modal tracking tasks using a unified model and parameter set. This sequence learning paradigm not only simplifies the tracking framework, but also showcases superior performance across 14 challenging benchmarks spanning five single- and multi-modal tracking tasks. The code and models are available at https://github.com/chenxin-dlut/SeqTrackv2.

研究动机与目标

促成一个更简单、统一的跟踪框架，不需要多头分类/回归或复杂的损失函数。
提出一个序列到序列的表述，自动回归地生成边界框标记。
证明一个纯粹的编码器-解码器 Transformer 能够匹配或超过最先进的跟踪性能。
探索在联合模板-搜索特征提取和基于标记的边界框输出中的优势。

提出的方法

将边界框转换为表示 [x, y, w, h] 的离散令牌序列。
使用基于 ViT 的编码器提取联合模板和搜索区域特征。
使用因果 Transformer 解码器自回归生成边界框标记序列。
在输入帧条件下对标记序列应用交叉熵损失进行训练。
通过自生成标记来推断，直到生成四个边界框标记为止。
在推断期间可选择将在线模板更新与窗口惩罚作为先验整合。

实验结果

研究问题

RQ1视觉跟踪是否可以在没有专门头部的情况下有效地被作为序列生成问题来处理？
RQ2一个简单的编码器–解码器 Transformer 是否足以在各个基准上实现具有竞争力或最先进的跟踪性能？
RQ3编码器输入设计（联合模板-搜索 vs 分离）以及边界框标记顺序对性能有何影响？
RQ4在线模板更新和窗口惩罚在 SeqTrack 框架内是否带来实际收益？

主要发现

Method	LaSOT AUC	LaSOT P Norm	LaSOT P	LaSOT ext AUC	LaSOT ext P Norm	LaSOT ext P	TrackingNet AUC	TrackingNet P Norm	TrackingNet P	GOT-10k AO	GOT-10k SR 0.5	GOT-10k SR 0.75
SeqTrack-L384	72.5	81.5	79.3	50.7	61.6	57.5	85.5	89.8	85.8	74.8	81.9	72.2
SeqTrack-L256	72.1	81.7	79.0	50.5	61.5	57.2	85.0	89.5	84.9	74.5	83.2	72.0
SeqTrack-B384	71.5	81.1	77.8	50.5	61.6	57.5	83.9	88.8	83.6	74.5	84.3	71.4
SeqTrack-B256	69.9	79.7	76.3	49.5	60.8	56.3	83.3	88.3	82.2	74.7	84.7	71.8

SeqTrack 的变体在主要基准（LaSOT、TrackingNet、GOT-10k）上达到与最先进结果相近的水平。
SeqTrack-L384 在对齐设置下在 LaSOT 取得 72.5% AUC，在 GOT-10k 的 AO 为 74.8%，超越若干强基线。
SeqTrack-B256 使用 ViT-B 编码器在 GOT-10k 上达到 74.7% AUC，在 LaSOT/AUC 为 72.1，同时仍比部分对手运行更快。
SeqTrack-L384 在 LaSOT 上的 AUC 比此前最好跟踪器高出 1.2%，且对形变、背景杂乱等属性处理稳健。
自回归序列生成且采用因果掩码是关键；与自回归生成相比，双向标记预测会降低性能。
在编码器中联合处理模板和搜索特征比分离编码器得到更好结果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。