QUICK REVIEW

[论文解读] Rethinking Cross-modal Interaction from a Top-down Perspective for Referring Video Object Segmentation

Liang Chen, Yu Wu|arXiv (Cornell University)|Jun 2, 2021

Multimodal Machine Learning Applications参考文献 26被引用 32

一句话总结

论文提出了一种两阶段自上而下的方法用于 RVOS：通过多帧实例分割和传播生成穷尽的对象轨迹片段，然后用基于 Transformer 的模块对轨迹片段进行语言参考定位，在 Referring Youtube-VOS 上实现了最先进的结果。

ABSTRACT

Referring video object segmentation (RVOS) aims to segment video objects with the guidance of natural language reference. Previous methods typically tackle RVOS through directly grounding linguistic reference over the image lattice. Such bottom-up strategy fails to explore object-level cues, easily leading to inferior results. In this work, we instead put forward a two-stage, top-down RVOS solution. First, an exhaustive set of object tracklets is constructed by propagating object masks detected from several sampled frames to the entire video. Second, a Transformer-based tracklet-language grounding module is proposed, which models instance-level visual relations and cross-modal interactions simultaneously and efficiently. Our model ranks first place on CVPR2021 Referring Youtube-VOS challenge.

研究动机与目标

以自上而下、面向对象的方法激励 RVOS，相对于传统的自下而上的网格级对齐。
通过遮罩关键帧并将掩码在整个视频中传播，构建一组全面的对象轨迹片段。
开发一个轨迹片段-NMS 机制以高效地剔除冗余轨迹片段。
提出一个基于 Transformer 的轨迹片段—语言对位模块，以建模模态内和模态间关系。
在 Referring Youtube-VOS 挑战中展示出最先进的性能。

提出的方法

通过对 K 个关键帧应用实例分割来生成对象候选，在 O^k_n 上获得。
将每个候选掩码传播到整段视频以形成轨迹片段 Γ^k_n。
使用轨迹片段-IoU 进行轨迹片段-NMS，以选择前 P 个轨迹片段作为候选。
提取每帧的轨迹片段特征和语言特征，然后使用 Transformer 对位模块计算在各帧上的轨迹片段分数。
通过在每帧选择分数最高的轨迹片段并在整个视频中聚合来得到最终分割。
使用图像级编码器（HTC/CondInst），CFBI+ 传播，ResNet-101/ BERT 基编码器，以及用于式(Eq. 6) 的 4 层 Transformer 对位模块。
训练包括在 COCO/RVOS-D 数据上对组件进行预训练，然后在 RVOS-D 上进行微调，并进行模型集成以获得最终预测。
research_questions':['面向对象的自上而下对位在 RVOS 中能否相较于自下而上的网格级方法提升性能？','穷尽的轨迹片段生成再加上轨迹片段-NMS 是否能为语言对位提供稳健的指代对象候选？','基于 Transformer 的对位对齐模块在建模跨模态和跨轨迹片段关系方面有多有效？']
key_findings':['在 CVPR2021 的 Referring Youtube-VOS 挑战赛的 track: test-dev 获得第一名，J&F 61.4%、J 60.0%、F 62.7%（相比基线有提升）。','在 test-challenge 获得第一名，J&F 60.7%、J 59.4%、F 62.0%（相对于基线有提升）。','消融实验显示在图像级基线基础上，加入视频级传播、Transformer 对位、Sequence-NMS 的性能提升。'],
research_questions_translation_Indexernote?
table_headers_translate_to_chinese_and_rows_created: not required
table_headers':['模型','J&F','J','F']
table_rows':[[

实验结果

研究问题

主要发现

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。