Skip to main content
QUICK REVIEW

[论文解读] Robust Invisible Video Watermarking with Attention

Kevin Alex Zhang, Lei Xu|arXiv (Cornell University)|Sep 3, 2019
Advanced Steganography and Watermarking Techniques参考文献 30被引用 34
一句话总结

提出 RivaGAN,一种基于注意力的深度学习框架,用于鲁棒、隐形视频水印嵌入,利用双对手方(评判器和对手)来优化保真度与水印鲁棒性。它在32位水印上达到最先进的结果,对裁剪、缩放和压缩具有强鲁棒性。

ABSTRACT

The goal of video watermarking is to embed a message within a video file in a way such that it minimally impacts the viewing experience but can be recovered even if the video is redistributed and modified, allowing media producers to assert ownership over their content. This paper presents RivaGAN, a novel architecture for robust video watermarking which features a custom attention-based mechanism for embedding arbitrary data as well as two independent adversarial networks which critique the video quality and optimize for robustness. Using this technique, we are able to achieve state-of-the-art results in deep learning-based video watermarking and produce watermarked videos which have minimal visual distortion and are robust against common video processing operations.

研究动机与目标

  • 推动鲁棒、隐形的视频水印嵌入,在常见视频处理操作后仍然可被检测到。
  • 开发一个深度学习架构,在最小视觉失真的前提下嵌入并解码多位水印。
  • 引入基于注意力的机制,将数据位稳健地映射到视频内容。
  • 利用对抗训练(评判器和攻击者)以提高水印鲁棒性和视频逼真度。
  • 在基准视频上评估解码准确性和视觉质量等性能。

提出的方法

  • 引入一个注意力模块,学习逐像素的数据维度分布(注意力掩码)以引导嵌入。
  • 通过使用注意力掩码的编码器将固定长度的数据向量嵌入视频,且在受限范围内使用残差扰动(-0.01, +0.01)。
  • 使用执行注意力池化的解码器在不需要原始视频的情况下恢复水印(盲水印)。
  • 结合评判器以促使水印视频更逼真,并用对手来模拟水印移除攻击。
  • 应用可微分的噪声层(缩放、裁剪和基于 DCT 的压缩)以提升对常见视频变换的鲁棒性。
  • 优化联合损失,包括数据恢复的交叉熵、评判器现实性,以及带有 Wasserstein 项的对抗鲁棒性。

实验结果

研究问题

  • RQ1基于深度学习的水印系统在经过如缩放、裁剪和压缩等典型处理后,是否能够可靠地从水印视频中恢复32/64位有效载荷?
  • RQ2与基于连接的数 据嵌入相比,基于注意力的嵌入策略是否改善隐蔽性和鲁棒性?
  • RQ3对抗组件(评判器和攻击者)是否能够在不降低解码准确性的情况下共同提升视频逼真度和水印鲁棒性?
  • RQ4水印检测是否真的盲打,即解码器在不访问原始视频的情况下能否恢复数据?
  • RQ5使用海明向量对进行训练如何影响收敛性和性能?

主要发现

  • 基于注意力的嵌入在对裁剪、缩放和压缩的鲁棒性方面优于基于连接的方法。
  • 水印视频在各配置下维持高视觉质量,PSNR 约为 42 dB,SSIM 约为 0.95–0.96。
  • 在使用抗噪训练后,裁剪/缩放后32位水印解码准确率接近99%。
  • 若不进行鲁棒性增强,基本的注意力模型仍优于无注意力的变体,加入评判器/对手模块可提升鲁棒性(MJPEG、裁剪、缩放)。
  • Mechanical Turk 的人类工作者无法可靠识别水印视频,检测率接近随机猜测(约0.51),使用评判器时略有下降。
  • 该模型展示了可解释的逐像素注意力掩码以及不同位的明显距离掩码,支持内容条件化比特分配。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。