QUICK REVIEW

[论文解读] VideoMaMa: Mask-Guided Video Matting via Generative Prior

Sangbeom Lim, Seoung Wug Oh|arXiv (Cornell University)|Jan 20, 2026

Image Enhancement Techniques被引用 0

一句话总结

VideoMaMa 利用扩散先验将二值掩码转化为精确的视频抠像蒙版，支持大规模伪标签化并引入用于真实世界视频抠像的 MA-V 数据集。

ABSTRACT

Generalizing video matting models to real-world videos remains a significant challenge due to the scarcity of labeled data. To address this, we present Video Mask-to-Matte Model (VideoMaMa) that converts coarse segmentation masks into pixel accurate alpha mattes, by leveraging pretrained video diffusion models. VideoMaMa demonstrates strong zero-shot generalization to real-world footage, even though it is trained solely on synthetic data. Building on this capability, we develop a scalable pseudo-labeling pipeline for large-scale video matting and construct the Matting Anything in Video (MA-V) dataset, which offers high-quality matting annotations for more than 50K real-world videos spanning diverse scenes and motions. To validate the effectiveness of this dataset, we fine-tune the SAM2 model on MA-V to obtain SAM2-Matte, which outperforms the same model trained on existing matting datasets in terms of robustness on in-the-wild videos. These findings emphasize the importance of large-scale pseudo-labeled video matting and showcase how generative priors and accessible segmentation cues can drive scalable progress in video matting research.

研究动机与目标

通过利用扩散模型的生成先验，弥合视频抠像中的合成到真实域的差距。
开发一个以掩码为引导的抠像模型，从粗略分割掩码生成像素级精确的 Alpha 蒙版。
创建一个可扩展的流水线，从分割掩码生成大规模视频抠像标注。
证明大规模伪标注数据能够提升真实场景视频抠像的鲁棒性。

提出的方法

在 Stable Video Diffusion 之上构建 VideoMaMa，使用掩码条件潜在输入实现单步前向传播生成 Alpha 蒙版。
通过 VAE 将视频帧、输入掩码和 Alpha 蒙版编码到共享潜在空间，以实现高效的时空处理。
引入掩码增强（多边形降解与下采样降解），防止拷贝粘贴行为并促进外观引导的抠像。
采用两阶段训练策略：(i) 在高分辨率下训练空间层以获得细节；(ii) 在较低分辨率下训练时间层以获得时序一致性。
通过将扩散特征与 DINOv3 表征对齐，注入语义知识以改善边界定位与追踪。
使用像素级抠像损失和拉普拉斯边缘保持分量进行训练，以促使边界更清晰。
在推理阶段应用两塔结构，输入拼接的帧、掩码和噪声潜变量以预测 Alpha 潜在变量，随后进行 VAE 解码。

Figure 2 : Overview of VideoMaMa architecture. RGB frames and guide masks are processed through video diffusion U-Net layers to generate high-quality video mattes. Semantic injection with DINO features is applied during training.

实验结果

研究问题

RQ1如何在零-shot 现实世界场景中，利用预训练扩散先验从粗掩码生成高质量的视频抠像蒙版？
RQ2是否可以通过两阶段训练让掩码条件扩散模型在视频抠像中同时实现高空间细节和时序一致性？
RQ3语义特征对齐（如与 DINOv3 的对齐）是否提升抠像质量和边界处理？
RQ4大规模伪标签数据（MA-V）在用于在真实素材上微调后，是否能提升下游视频抠像模型的性能？

主要发现

VideoMaMa 在仅用合成数据进行训练的前提下，展示出对真实世界视频的强烈零-shot 泛化能力。
MA-V 提供超过 5 万条真实世界视频及高质量抠像注释，使抠像模型的训练更加有效。
在 MA-V 上训练的 SAM2-Matte 相较于在现有抠像数据集上训练的相同模型，在真实场景视频的鲁棒性上表现更好。
大规模伪标注与 VideoMaMa 的结合显著提升抠像性能，MA-V 在微调时提升抠像质量与追踪鲁棒性。
VideoMaMa 展现出对来自不同掩码源的鲁棒性，包括合成降解和模型生成的掩码（如 SAM2）。
两阶段训练与语义注入（DINO 特征）有益，提升边界和时序的一致性。

Figure 3 : Examples of mask augmentation methods. Polygon and Downsampling degradation are applied at weak and strong augmentation levels.

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。