[论文解读] Provable Robust Watermarking for AI-Generated Text
本论文提出 Unigram-Watermark,一种对AI生成文本的可证明鲁棒水印方法,在保持生成质量的同时实现可靠检测并对编辑和改写攻击具有强鲁棒性,具备形式保证和实证验证。
We study the problem of watermarking large language models (LLMs) generated text -- one of the most promising approaches for addressing the safety challenges of LLM usage. In this paper, we propose a rigorous theoretical framework to quantify the effectiveness and robustness of LLM watermarks. We propose a robust and high-quality watermark method, Unigram-Watermark, by extending an existing approach with a simplified fixed grouping strategy. We prove that our watermark method enjoys guaranteed generation quality, correctness in watermark detection, and is robust against text editing and paraphrasing. Experiments on three varying LLMs and two datasets verify that our Unigram-Watermark achieves superior detection accuracy and comparable generation quality in perplexity, thus promoting the responsible use of LLMs. Code is available at https://github.com/XuandongZhao/Unigram-Watermark.
研究动机与目标
- 形式化一个严谨的框架,用于量化水印的有效性、正确性以及对后处理的鲁棒性。
- 提出 Unigram-Watermark(K=1)作为一种鲁棒、简单的水印方案,具有固定的绿色/红色分割。
- 证明生成质量保障以及随文本长度增加Type I/II错误的指数衰减。
- 给出对编辑和改写的鲁棒性保证,结合理论与实证支持。
- 展示在多种模型和数据集上的实际有效性。
提出的方法
- 给出带固定绿色列表和绿色令牌对数偏移量 delta 的水印定义与检测算法。
- 对绿色列表令牌的计数使用 z-统计量来判定是否为水印文本。
- 给出可证的保证:关于分布变化的 Renyi-散度界、Type I/II 错误界限,以及对后处理的安全性。
- 通过理论定理证明水印输出的 ω-质量以及对编辑的鲁棒性。
- 将 Unigram-Watermark 与先前的软水印进行比较,在攻击下显示出更优的鲁棒性。
- 在 OpenGen 和 LFQA 数据集上使用 GPT2-XL、OPT-1.3B、LLaMA-7B 进行实验,展示检测性能和生成质量。
实验结果
研究问题
- RQ1基于一元的水印是否能为检测准确性和对编辑的鲁棒性提供可证明的保障?
- RQ2在不同模型和数据集中,水印强度、检测能力和文本质量之间存在哪些定量权衡?
- RQ3在改写和编辑攻击下,Unigram-Watermark 与先前的水印方案相比如何?
- RQ4在文本长度增加的条件下,Type I 和 Type II 错误率在何种条件下衰减?
- RQ5该水印在保留生成质量的同时,对常见后处理攻击是否具有鲁棒性?
主要发现
| 数据集 | 方法 | 1% FPR TPR | 1% FPR F1 | 10% FPR TPR | 10% FPR F1 |
|---|---|---|---|---|---|
| OpenGen | KGW+23 | 1.000 | 0.995 | 1.000 | 0.952 |
| OpenGen | Unigram-Watermark | 1.000 | 0.995 | 1.000 | 0.952 |
| LFQA | KGW+23 | 1.000 | 0.995 | 1.000 | 0.952 |
| LFQA | Unigram-Watermark | 1.000 | 0.952 | 1.000 | 0.952 |
- 在 OpenGen 和 LFQA 上,在无攻击的情况下,Unigram-Watermark 在 1% 和 10% 假阳性率下实现完美或接近完美的检测(TPR ~1.000)。
- 在改写和编辑攻击下,Unigram-Watermark 在多种模型上始终优于 KGW+23,保持较高的检测率。
- 带水印的文本的困惑度接近人类生成文本,表明生成质量得以保持。
- 理论保证表明带水印的分布与原始分布之间的 Renyi-散度被 delta 严密界定,从而确保 ω-质量。
- 通过阈值标定可以将 Type I 错误控制在所选的 alpha 以下,且随着文本长度增加呈指数衰减。
- 安全性结果表明对编辑具有鲁棒性,在有界编辑下 z-score 仅有适度变化,相对于先前工作提升了鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。