[论文解读] Video Object Segmentation with Adaptive Feature Bank and Uncertain-Region Refinement
提出自适应特征库和不确定区域细化,以提升半监督视频对象分割,在 DAVIS16/17 和 YouTube-VOS 基准上无需在线微调即可达到最先进水平。
We propose a new matching-based framework for semi-supervised video object segmentation (VOS). Recently, state-of-the-art VOS performance has been achieved by matching-based algorithms, in which feature banks are created to store features for region matching and classification. However, how to effectively organize information in the continuously growing feature bank remains under-explored, and this leads to inefficient design of the bank. We introduce an adaptive feature bank update scheme to dynamically absorb new features and discard obsolete features. We also design a new confidence loss and a fine-grained segmentation module to enhance the segmentation accuracy in uncertain regions. On public benchmarks, our algorithm outperforms existing state-of-the-arts.
研究动机与目标
- 为长视频中的匹配型 VOS 提升记忆管理以实现更好目标匹配。
- 开发一个自适应特征库,能够吸收新特征并舍弃过时特征。
- 引入不确定区域细化模块以更好地处理边界模糊。
- 训练一个结合分类损失与基于置信度的损失的框架,以降低分割的不确定性。
- 在长视频和多个基准上展示鲁棒性与高效性。
提出的方法
- 使用带查询编码器和每个目标对象特征库的匹配型分割流程。
- 为每个对象维持一个自适应特征库,合并相似特征并追加不同特征(Equations 3–5)。
- 通过基于 LFU 的策略丢弃过时特征,以将内存控制在预算范围内(Equation 6)。
- 引入不确定区域细化(URR),计算像素级不确定性图和置信度损失(Equations 7–9)。
- 使用邻域参考进行局部细化,以改进模糊边界的分割(Equations 10–12)。
- 在训练中同时使用分类损失和置信度损失,而无需在线微调。
实验结果
研究问题
- RQ1自适应特征库如何高效管理用于匹配型 VOS 的长视频对象记忆?
- RQ2引入以置信度驱动的不确定区域细化是否能提高边界准确性和整体分割质量?
- RQ3所提出的方法在无需在线微调的情况下,是否能够在标准 VOS 基准上超过最先进水平?
主要发现
| 方法 | OL | J_M | J_R | J_D | F_M | F_R | J_D | J&F_M |
|---|---|---|---|---|---|---|---|---|
| RANet | 63.2 | 73.7 | 18.6 | 68.2 | 78.8 | 19.7 | 65.7 | |
| AGSS | 63.4 | - | - | 69.8 | - | - | 66.6 | |
| RGMP | 64.8 | 74.1 | 18.9 | 68.6 | 77.7 | 19.6 | 66.7 | |
| OSVOS S | Yes | 64.7 | 74.2 | 15.1 | 71.3 | 80.7 | 18.5 | 68.0 |
| CINM | Yes | 67.2 | 74.5 | 24.6 | 74.0 | 81.6 | 26.2 | 70.6 |
| A-GAME (+YV) | 68.5 | 78.4 | 14.0 | 73.6 | 83.4 | 15.8 | 71.0 | |
| FEELVOS (+YV) | 69.1 | 79.1 | 17.5 | 74.0 | 83.8 | 20.1 | 71.5 | |
| STM | 69.2 | - | - | 74.0 | - | - | 71.6 | |
| Ours | 73.0 | 85.3 | 13.8 | 76.1 | 87.0 | 15.5 | 74.6 |
- 在 DAVIS17 和 YouTube-VOS 基准上无需在线微调即可超越最先进方法。
- 在长视频场景中通过动态特征库和 LFU 基础修剪展现出强劲性能。
- URR 通过置信度损失和局部细化提高边界和不确定区域的分割效果。
- AFB 提供记忆效率,使其能够处理长视频且具有有竞争力的运行时。
- 消融实验表明完整框架(AFB+URR)相对于各子变体获得最佳的 J&F 分数。
- 在 DAVIS17 上,该方法在无需在线微调的情况下达到 J&F 74.6,并且在 1080Ti 上的帧率为 4.0 fps。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。