[論文レビュー] SIGMark: Scalable In-Generation Watermark with Blind Extraction for Video Diffusion
SIGMarkは、Global Frame-wise PseudoRandom Coding (GF-PRC) と Segment Group-Ordering (SGO) モジュールを使用して、一定時間抽出を実現し、時間的処理を頑健化するブラインドな生成時水印付与フレームワークをビデオ拡散モデルに適用します。
Artificial Intelligence Generated Content (AIGC), particularly video generation with diffusion models, has been advanced rapidly. Invisible watermarking is a key technology for protecting AI-generated videos and tracing harmful content, and thus plays a crucial role in AI safety. Beyond post-processing watermarks which inevitably degrade video quality, recent studies have proposed distortion-free in-generation watermarking for video diffusion models. However, existing in-generation approaches are non-blind: they require maintaining all the message-key pairs and performing template-based matching during extraction, which incurs prohibitive computational costs at scale. Moreover, when applied to modern video diffusion models with causal 3D Variational Autoencoders (VAEs), their robustness against temporal disturbance becomes extremely weak. To overcome these challenges, we propose SIGMark, a Scalable In-Generation watermarking framework with blind extraction for video diffusion. To achieve blind-extraction, we propose to generate watermarked initial noise using a Global set of Frame-wise PseudoRandom Coding keys (GF-PRC), reducing the cost of storing large-scale information while preserving noise distribution and diversity for distortion-free watermarking. To enhance robustness, we further design a Segment Group-Ordering module (SGO) tailored to causal 3D VAEs, ensuring robust watermark inversion during extraction under temporal disturbance. Comprehensive experiments on modern diffusion models show that SIGMark achieves very high bit-accuracy during extraction under both temporal and spatial disturbances with minimal overhead, demonstrating its scalability and robustness. Our project is available at https://jeremyzhao1998.github.io/SIGMark-release/.
研究の動機と目的
- AI生成ビデオの保護・著作権識別・コンテンツ追跡のための動機付け。
- 既存の生成時水印のスケーラビリティと時間的頑健性の欠点への対応。
- 動画品質を保ちつつ大規模での一定時間抽出を可能にするブラインド抽出水印付与フレームワークの開発。
- 現代のビデオ拡散モデル上での実用的評価を提供し、頑健性とスケーラビリティを実証。
提案手法
- GF-PRCスキームを用いて初期潜在ノイズへ水印を埋め込み、ノイズがガウス分布を保ち歪みなく高品質生成を実現。
- メタデータを個別動画ごとに保存することなくブラインド抽出を可能にするため、潜在フレーム群ごとにグローバルPRCキーを割り当てる。
- 時間的ノイズに対する正しい因果フレームグルーピングを回復するため、光学フロー分割とスライディングウィンドウ検出を用いたSegment Group-Ordering (SGO)モジュールを導入。
- 水印処理された動画を潜在空間へ反転させ、PRCキーを用いてメッセージをデコードし、改変済み動画からのブラインド抽出を可能にする。
- 生成ビデオの数に依存せず一定の抽出コストを維持し、スケーラビリティを実証する。
実験結果
リサーチクエスチョン
- RQ1映像拡散モデルにおける生成時水印付与で、動画ごとの水印リファレンスを維持せずにブラインド抽出を実現できるか。
- RQ2フレーム欠落やクリッピングなどの時間的撹乱をどう抑制し、反転時の水印の完全性を保つか。
- RQ3GF-PRCは大規模使用下で拡散モデルの品質を維持しつつ歪みのない埋め込みを可能にするか。
- RQ4空間的・時間的撹乱に対するSIGMarkの頑健性は、既存手法と比べてどの程度であるか。
主な発見
| Model | Watermarking | Bit acc (T2V) | V-score (T2V) | Bit acc (I2V) | V-score (I2V) | Bit acc (Overall) | V-score (Overall) |
|---|---|---|---|---|---|---|---|
| HunyuanVideo | No-mark | – | – | – | – | – | – |
| HunyuanVideo | DCT (Post) | 0.889 | 0.424 | 0.862 | 0.423 | 0.890 | 0.452 |
| HunyuanVideo | DT-CWT (Post) | 0.619 | 0.416 | 0.650 | 0.436 | 0.627 | 0.458 |
| HunyuanVideo | VideoMark (None-blind) | 0.873 | 0.507 | 0.758 | 0.502 | 0.846 | 0.483 |
| HunyuanVideo | VideoShield (None-blind) | 1.000 | 0.497 | 0.991 | 0.506 | 1.000 | 0.482 |
| HunyuanVideo | SIGMark (Ours) (Blind) | 0.958 | 0.506 | 0.885 | 0.499 | 0.981 | 0.472 |
- SIGMarkは低容量・高容量の両設定で高いビット精度を達成し、非ブラインドのベースラインを上回りつつブラインドベースラインにも競争力を持つ。
- 撹乱下でもSIGMarkは高いビット精度を維持(例:ある設定で0.958ビット精度、0.506Vスコア)し、誤ったフレーミングに悩む従来手法より時間的頑健性が優れる。
- GF-PRCは生成ビデオ数に依存せず定常コストでのブラインド抽出を可能にし、抽出コストが生成動画数とともに増加するアプローチと対照的である。
- SGOは時間的撹乱下で因果フレーミングの回復を効果的に行い、抽出信頼性を向上させる。
- 現代の拡散モデル(HunyuanVideoとWan-2.2)での実験により、SIGMarkは最低限のオーバーヘッドで高い抽出精度を維持する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。