[論文レビュー] VideoMaMa: Mask-Guided Video Matting via Generative Prior
VideoMaMaは事前学習済みの動画拡散事前知識を利用して入力バイナリマスクを高品質な動画マットへと変換し、ゼロショットの実世界一般化とスケーラブルな疑似ラベリングを実現します。またMA-V注釈に基づく大規模実動画マットデータセットを導入します。
Generalizing video matting models to real-world videos remains a significant challenge due to the scarcity of labeled data. To address this, we present Video Mask-to-Matte Model (VideoMaMa) that converts coarse segmentation masks into pixel accurate alpha mattes, by leveraging pretrained video diffusion models. VideoMaMa demonstrates strong zero-shot generalization to real-world footage, even though it is trained solely on synthetic data. Building on this capability, we develop a scalable pseudo-labeling pipeline for large-scale video matting and construct the Matting Anything in Video (MA-V) dataset, which offers high-quality matting annotations for more than 50K real-world videos spanning diverse scenes and motions. To validate the effectiveness of this dataset, we fine-tune the SAM2 model on MA-V to obtain SAM2-Matte, which outperforms the same model trained on existing matting datasets in terms of robustness on in-the-wild videos. These findings emphasize the importance of large-scale pseudo-labeled video matting and showcase how generative priors and accessible segmentation cues can drive scalable progress in video matting research.
研究の動機と目的
- 拡散モデルの生成 priors を活用して、動画マット処理における合成データと実データの領域ギャップを埋める。
- coarse なセグメンテーションマスクからピクセル単位のアルファマットを生成する、マスク指向のマッティングモデルを開発する。
- セグメンテーションマスクから大規模な動画マット注釈を生成するスケーラブルなパイプラインを作成する。
- 大規模な疑似ラベルデータが実世界映像でのマット処理の堅牢性を向上させることを示す。
提案手法
- Stable Video Diffusion 上にマスク条件付き潜在入力でアルファマットを単一のフォワードパスで生成する VideoMaMa を構築する。
- ビデオフレーム、入力マスク、アルファマットをVAEを介して共通の潜在空間にエンコードし、時空間処理を効率化する。
- コピー&ペースト動作を防ぎ、外観誘導のマッティングを促進するために、マスク拡張(ポリゴン劣化とダウンサンプリング劣化)を導入する。
- 二段階のトレーニング戦略を採用する: (i) 高解像度で空間レイヤーを訓練し細部を再現、(ii) より低解像度で時間的整合性を重視して時間レイヤーを訓練。
- 拡散特徴をDINOv3表現と整列させて意味的知識を注入し、境界の局在化と追跡を改善する。
- ピクセルレベルのマッチング損失とラプラシアン境界保護成分を用いてシャープな境界を促進する。
- フレーム、マスク、ノイズ潜在を連結して二塔推論を行いアルファ潜在を予測し、その後VAEでデコードする。

実験結果
リサーチクエスチョン
- RQ1事前学習済み拡散事前知識を用いて、粗いマスクからゼロショットの実世界設定で高品質な動画マットを生成するにはどうすればよいか?
- RQ2マスク条件付き拡散モデルを二段階で訓練し、動画マット処理において高い空間的詳細と時間的一貫性の両方を達成できるか?
- RQ3意味的特徴の整列(例:DINOv3)によりマット品質と境界処理が改善されるか?
- RQ4 MA-V のような大規模な疑似ラベルデータは、実世界映像でファインチューニングした後の下流の動画マット処理モデルを改善できるか?
主な発見
- VideoMaMaは、合成データのみで学習していても実世界の動画に対して強いゼロショット一般化を達成する。
- MA-Vは高品質なマッティング注釈を持つ50k超の実世界動画を提供し、マッティングモデルの効果的な訓練を可能にする。
- MA-V上で訓練されたSAM2-Matteは、既存データセットで訓練した同モデルより実世界動画での頑健性が高い。
- VideoMaMaによる大規模な疑似ラベリングはマッティング性能を大幅に向上させ、MA-Vをファインチューニングに用いるとマット品質と追跡頑健性の双方を改善する。
- VideoMaMaは合成デグレードやモデル生成マスク(例:SAM2)を含む多様なマスクソースに対して頑健性を示す。
- 二段階トレーニングと意味的注入(DINO特徴)が有益で、境界と時間的一貫性を改善する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。