[论文解读] SOC: Semantic-Assisted Object Cluster for Referring Video Object Segmentation
SOC 统一时序建模与跨模态对齐用于 RVOS 的语义整合模块和视频级对象簇,在视觉-语言对比学习辅助下,达到最先进的结果并拥有更快的推理速度。
This paper studies referring video object segmentation (RVOS) by boosting video-level visual-linguistic alignment. Recent approaches model the RVOS task as a sequence prediction problem and perform multi-modal interaction as well as segmentation for each frame separately. However, the lack of a global view of video content leads to difficulties in effectively utilizing inter-frame relationships and understanding textual descriptions of object temporal variations. To address this issue, we propose Semantic-assisted Object Cluster (SOC), which aggregates video content and textual guidance for unified temporal modeling and cross-modal alignment. By associating a group of frame-level object embeddings with language tokens, SOC facilitates joint space learning across modalities and time steps. Moreover, we present multi-modal contrastive supervision to help construct well-aligned joint space at the video level. We conduct extensive experiments on popular RVOS benchmarks, and our method outperforms state-of-the-art competitors on all benchmarks by a remarkable margin. Besides, the emphasis on temporal coherence enhances the segmentation stability and adaptability of our method in processing text expressions with temporal variations. Code will be available.
研究动机与目标
- 激励 RVOS 利用全局视频视图更好建模帧间关系和语言描述中的时序变化。
- 提出一个语义集成模块(SIM),用于聚合帧内与帧间信息以实现视频级理解。
- 引入两流多模态融合(MMF)和视频级对象簇,以跨时序与语言引导共同建模对象。
- 应用视觉-语言对比损失,将视频级对象表示与文本引导对齐。
- 在 RVOS 基准数据集上展示最先进的性能,具备更高的稳定性和实时推理速度。
提出的方法
- 使用时空骨干网络对视频进行编码,使用基于变换器的语言编码器对文本进行编码。
- 使用两流 MMF(从语言到视觉与从视觉到语言)在多个视觉尺度上执行跨模态对齐。
- 开发一个语义集成模块(SIM),通过可变形变换器进行帧级内容聚合,以及一个视频级对象簇,利用从语言特征初始化的视频级查询跨帧对同一对象进行聚类。
- 引入一个视觉-语言对比损失,将视频级对象查询与文本引导嵌入对齐。
- 结合三种轻量级预测头(分类、框与动态掩码核),并对轨迹进行匈牙利分配监督。
- 用掩码、框、类别和对比损失的组合进行训练,以优化联合的视频-语言空间和分割质量。
实验结果
研究问题
- RQ1RVOS 如何从全局视频级视图中受益,以更好地捕捉语言描述的时序变化?
- RQ2将帧级对象嵌入聚合到视频级簇中,是否能够改善跨模态对齐和跨帧分割稳定性?
- RQ3视觉-语言对比目标是否有助于将视频级表示与用于指示片段的文本引导对齐?
- RQ4视频级建模对推理速度和对时序表达的鲁棒性有何影响?
主要发现
- SOC 在主要基准上优于最新的 RVOS 方法(Ref-YouTube-VOS、Ref-DAVIS17、A2D-Sentences、JHMDB-Sentences)。
- 视频级对象簇(VOC)和视觉-语言(VL)对比学习各自提升性能,二者结合在 J&F、J、F 指标上带来进一步提升。
- SOC 实现接近实时的推理速度(单个 3090 GPU 上 32.3 FPS),优于此前的 SOTA(ReferFormer 在 21.4 FPS)。
- 时序连贯性得到提升,处理具有时序变化的文本表达时,跨帧分割方差降低。
- 消融实验表明,L2V 融合与时序跨帧聚合的必要性以实现强性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。