Skip to main content
QUICK REVIEW

[论文解读] VITA: Video Instance Segmentation via Object Token Association

Miran Heo, Sukjun Hwang|arXiv (Cornell University)|Jun 9, 2022
Visual Attention and Saliency Detection被引用 40
一句话总结

VITA 提供一个完全离线的 VIS 方法,它通过图像检测器提炼的以对象为中心的标记来构建视频理解,在 YouTube-VIS 2019/2021 和 OVIS 上使用 ResNet-50 主干达到最先进的结果。

ABSTRACT

We introduce a novel paradigm for offline Video Instance Segmentation (VIS), based on the hypothesis that explicit object-oriented information can be a strong clue for understanding the context of the entire sequence. To this end, we propose VITA, a simple structure built on top of an off-the-shelf Transformer-based image instance segmentation model. Specifically, we use an image object detector as a means of distilling object-specific contexts into object tokens. VITA accomplishes video-level understanding by associating frame-level object tokens without using spatio-temporal backbone features. By effectively building relationships between objects using the condensed information, VITA achieves the state-of-the-art on VIS benchmarks with a ResNet-50 backbone: 49.8 AP, 45.7 AP on YouTube-VIS 2019 & 2021, and 19.6 AP on OVIS. Moreover, thanks to its object token-based structure that is disjoint from the backbone features, VITA shows several practical advantages that previous offline VIS methods have not explored - handling long and high-resolution videos with a common GPU, and freezing a frame-level detector trained on image domain. Code is available at https://github.com/sukjunhwang/VITA.

研究动机与目标

  • 通过利用以对象为中心的对象标记作为紧凑视频表示来推进离线 VIS。
  • 提出一个帧无关的检测器,将对象上下文提炼成标记并在时间上进行聚合。
  • 开发一个 Object Encoder/Decoder,以实现无需密集时空骨干的高效长序列视频理解。
  • 证明基于图像检测器的基础可以在实际效率下实现具有竞争力甚至优越的 VIS 性能。

提出的方法

  • 建立在一个 Mask2Former 帧级检测器之上,以获得每帧对象查询(帧查询)和每像素嵌入。
  • 引入 Object Encoder,将帧查询转换为对象标记,并应用窗口化的时序自注意力以实现长距离对象通信。
  • 引入 Object Decoder,将来自所有帧/对象标记的信息聚合到一个小的视频查询集合中,以进行最终的类别和掩码预测。
  • 端到端训练,损失包括视频级匹配损失、帧级损失以及对齐跨帧身份的相似性损失。
  • 通过使用紧凑的对象标记来处理长视频,而不是密集的时空骨干特征,从而实现视频内/视频外推理。

实验结果

研究问题

  • RQ1是否可以通过聚合从帧级检测器提炼的以对象为中心的标记来实现视频级理解?
  • RQ2在不使用密集时空骨干的情况下,如何有效建模长时高分辨率视频的对象间时序交互?
  • RQ3与传统的离线 VIS 方法相比,基于对象标记的架构在长视频(如 OVIS)上是否提高了鲁棒性与可扩展性?

主要发现

  • 在 YouTube-VIS 2019 上达到最先进的 VIS 性能(AP 49.8,使用 ResNet-50;AP 51.9,使用 ResNet-101;在 Swin-L 下最高可达 63.0)。
  • 在 YouTube-VIS 2021 上,VITA 达到 AP 45.7(ResNet-101),比之前的方法高出 5.1 AP。
  • 在 OVIS 上,VITA 达到 AP 19.6,显示在长序列中的强劲表现。
  • 展示实际优势:在单个 12GB 显卡上即可处理非常长/高分辨率的视频,在实验中帧级检测器被冻结,并且扩展仅需额外 ~6% 的参数。
  • 对象标记设计带来更快的收敛,并受益于相似性损失,提升跨帧的身份聚类。
  • 消融表明窗口大小和裁剪/标记剪枝会影响性能和推理扩展性,W=6 提供了一个实用的平衡。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。