QUICK REVIEW

[論文レビュー] VocBulwark: Towards Practical Generative Speech Watermarking via Additional-Parameter Injection

Weizhi Liu, Yue Li|arXiv (Cornell University)|Jan 30, 2026

Generative Adversarial Networks and Image Synthesis被引用数 0

ひとこと要約

VocBulwark は追加パラメータ注入フレームワークを介して水印を埋め込み、モデルパラメータを凍結し、Temporal Adapter と Coarse-to-Fine Gated Extractor を用いて、さまざまな攻撃に対して高忠実度で頑健な水印付与を実現する。

ABSTRACT

Generated speech achieves human-level naturalness but escalates security risks of misuse. However, existing watermarking methods fail to reconcile fidelity with robustness, as they rely either on simple superposition in the noise space or on intrusive alterations to model weights. To bridge this gap, we propose VocBulwark, an additional-parameter injection framework that freezes generative model parameters to preserve perceptual quality. Specifically, we design a Temporal Adapter to deeply entangle watermarks with acoustic attributes, synergizing with a Coarse-to-Fine Gated Extractor to resist advanced attacks. Furthermore, we develop an Accuracy-Guided Optimization Curriculum that dynamically orchestrates gradient flow to resolve the optimization conflict between fidelity and robustness. Comprehensive experiments demonstrate that VocBulwark achieves high-capacity and high-fidelity watermarking, offering robust defense against complex practical scenarios, with resilience to Codec regenerations and variable-length manipulations.

研究の動機と目的

生成音声における perceptual quality を損なうことなく、モデルの出所と内容規制を保護する動機付け。
ネイティブなモデルパラメータを保持しつつ、異種のボーカルコーダでも機能する水印付与フレームワークを開発する。
同期化・コーデックベースの攻撃に耐える仕組みを設計する。
水印忠実度と生成忠実度のバランスをとる最適化カリキュラムを提供する。
データセット、ボーカルコーダ、攻撃シナリオにわたる頑健性とスケーラビリティを評価する。

提案手法

特徴整列とフレームレベル放送、および適応注入機構を備えた音響空間水印埋め込みの Temporal Adapter を導入する。
ゲート付き分離畳み込みと多段階特徴統合を用い、二重経路プーリングで頑健な水印復元を実現する Coarse-to-Fine Gated Extractor（Cage）を提案する。
訓練時に Attack Simulator を組み込み、一般的で長さ可変のコーデック攻撃をシミュレートして頑健性を強化する。
水印抽出精度に基づいて感覚的損失の重みを動的に調整する Accuracy-Guided Optimization Curriculum を適用する。
水印復元のための Melスペクトログラム損失、マルチスケール STFT 損失、二値交差エントロピーを組み合わせた複合損失を、カリキュラムベースのスケジューリングで最適化する。

Figure 1 : Schematic comparison of generative watermarking paradigms and robustness evaluation. The left panel contrasts our VocBulwark (an Additional-Parameter Injection strategy) against prevalent baselines, including Weight Embedding, Model Fine-tuning, and Input Modification. The right panel vis

実験結果

リサーチクエスチョン

RQ1追加パラメータ注入を凍結 Generative Backbone に対して実行しても、音声品質を損なわずに高容量の水印を埋め込めるか？
RQ2長さ変化攻撃およびコーデック再生成に耐えるための時間的不変性をどのように達成するか？
RQ3多様な歪みとニューラルコーデックの下で頑健な水印抽出を可能にする仕組みは何か？
RQ4適応的カリキュラムは知覚忠実度と水印回復性の収束を改善するか？

主な発見

VocBulwark は拡散モデルと GAN ベースのボーカルコーダの両方で高忠実度の水印付き音声を達成し、報告された実験で baselines と比較して STOI、PESQ、SSIM が優れる。
Temporal Adapter と Progressive Feature Projection により高容量の水印（最大 2000 bps）を実現しつつ、知覚品質の低下を最小限に抑える。
Coarse-to-Fine Gated Extractor は可変長およびコーデック攻撃下でも頑健な水印復元を提供し、複数データセットを跨いで複数の baselines を上回る。
Accuracy-Guided Optimization Curriculum は訓練中の水印回復精度と生成忠実度のバランスを効果的に取る。
実験は distribution 内外のデータセットに対する一般的・可変長・複合攻撃への頑健性を示す。

Figure 2 : The overall framework of VocBulwark. The Temporal Adapter functions as a lightweight module that seamlessly entangles watermarks into acoustic attributes without disrupting the native generation process. Following the Attack Simulator, the Cage achieves precise watermark recovery via a co

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。