Skip to main content
QUICK REVIEW

[논문 리뷰] VocBulwark: Towards Practical Generative Speech Watermarking via Additional-Parameter Injection

Weizhi Liu, Yue Li|arXiv (Cornell University)|2026. 01. 30.
Generative Adversarial Networks and Image Synthesis인용 수 0
한 줄 요약

VocBulwark는 모델 매개변수를 동결하고 Temporal Adapter와 Coarse-to-Fine Gated Extractor를 사용하여 다양한 공격에 대해 고충실도이고 강건한 워터마크를 달성하는 추가 매개변수 주입 프레임워크를 통해 워터마크를 주입합니다.

ABSTRACT

Generated speech achieves human-level naturalness but escalates security risks of misuse. However, existing watermarking methods fail to reconcile fidelity with robustness, as they rely either on simple superposition in the noise space or on intrusive alterations to model weights. To bridge this gap, we propose VocBulwark, an additional-parameter injection framework that freezes generative model parameters to preserve perceptual quality. Specifically, we design a Temporal Adapter to deeply entangle watermarks with acoustic attributes, synergizing with a Coarse-to-Fine Gated Extractor to resist advanced attacks. Furthermore, we develop an Accuracy-Guided Optimization Curriculum that dynamically orchestrates gradient flow to resolve the optimization conflict between fidelity and robustness. Comprehensive experiments demonstrate that VocBulwark achieves high-capacity and high-fidelity watermarking, offering robust defense against complex practical scenarios, with resilience to Codec regenerations and variable-length manipulations.

연구 동기 및 목표

  • 지각 품질을 해치지 않으면서 생성 음성에서 모델 기원과 콘텐츠 규제를 보호하도록 동기를 제시합니다.
  • 원시 모델 매개변수를 보존하면서 이질적인 보코더 전반에서 작동하는 워터마킹 프레임워크를 개발합니다.
  • 동기화 및 코덱 기반 공격에 저항하는 메커니즘을 설계합니다.
  • 워터마크 충실도와 생성 충실도를 균형 있게 맞추기 위한 최적화 커리큘럼을 제공합니다.
  • 데이터세트, 보코더, 공격 시나리오 전반에 걸친 강인성과 확장성을 평가합니다.

제안 방법

  • 특징 정렬(feature alignment)과 프레임 단위 방송(frame-level broadcasting), 그리고 적응적 주입 메커니즘을 포함한 음향 공간 워터마킹 임베딩을 위한 Temporal Adapter를 도입합니다.
  • 강화된 게이트 분리 합성곱과 이중 경로 풀링을 통한 다중 스케일 특징 집합으로 강건한 워터마크 복구를 위한 Coarse-to-Fine Gated Extractor (Cage)을 제안합니다.
  • 훈련 중에 Attack Simulator를 통합하여 일반적이고 가변 길이의 공격 및 코덱 공격을 시뮬레이션하고 강인성을 강화합니다.
  • 워터마크 추출 정확도에 따라 지각 손실 가중치를 동적으로 조정하기 위해 Accuracy-Guided Optimization Curriculum을 활용합니다.
  • 워터마크 복구를 위한 Mel-스펙트로그램 손실, 다중 스케일 STFT 손실, 이진 교차 엔트로피를 결합한 합성 손실을 최적화하고 커리큘럼 기반 일정으로 조정합니다.
Figure 1 : Schematic comparison of generative watermarking paradigms and robustness evaluation. The left panel contrasts our VocBulwark (an Additional-Parameter Injection strategy) against prevalent baselines, including Weight Embedding, Model Fine-tuning, and Input Modification. The right panel vis
Figure 1 : Schematic comparison of generative watermarking paradigms and robustness evaluation. The left panel contrasts our VocBulwark (an Additional-Parameter Injection strategy) against prevalent baselines, including Weight Embedding, Model Fine-tuning, and Input Modification. The right panel vis

실험 결과

연구 질문

  • RQ1얼어붙은 생성 백본에 추가 매개변수 주입이 음성 품질을 해치지 않으면서 고용량 워터마크를 삽입할 수 있나요?
  • RQ2길이 변경 공격과 코덱 재생성에 저항하기 위해 어떻게 시간 불변성을 달성할 수 있나요?
  • RQ3다양한 왜곡과 신경 코덱 하에서 강건한 워터마크 추출을 가능하게 하는 메커니즘은 무엇인가요?
  • RQ4적응형 커리큘럼이 지각 충실도와 워터마크 회복성 간의 수렴성을 향상시키나요?

주요 결과

  • VocBulwark는 확산 모델 및 GAN 기반 보코더에서 고충실도 워터마크가 적용된 음성을 달성하며, 보고된 실험에서 기초대비 STOI, PESQ 및 SSIM이 우수합니다.
  • Temporal Adapter와 Progressive Feature Projection은 지각 품질을 유지하면서 최대 2000 bps의 고용량 워터마킹을 가능하게 하며 SSIM 저하를 최소화합니다.
  • Coarse-to-Fine Gated Extractor는 가변 길이 및 코덱 기반 공격 하에서도 강건한 워터마크 복구를 제공하며, 여러 데이터세트에 걸쳐 여러 기준선보다 우수합니다.
  • Accuracy-Guided Optimization Curriculum은 훈련 중 워터마크 회복 정확도와 생성 충실도 사이의 균형을 효과적으로 맞니다.
  • 실험에서 분포 내외 데이터세트에 대해 일반적이고 가변 길이 및 복합 공격에 대한 강한 강인성을 보였습니다.
Figure 2 : The overall framework of VocBulwark. The Temporal Adapter functions as a lightweight module that seamlessly entangles watermarks into acoustic attributes without disrupting the native generation process. Following the Attack Simulator, the Cage achieves precise watermark recovery via a co
Figure 2 : The overall framework of VocBulwark. The Temporal Adapter functions as a lightweight module that seamlessly entangles watermarks into acoustic attributes without disrupting the native generation process. Following the Attack Simulator, the Cage achieves precise watermark recovery via a co

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.