Skip to main content
QUICK REVIEW

[论文解读] On the Reliability of Watermarks for Large Language Models

John Kirchenbauer, Jonas Geiping|arXiv (Cornell University)|Jun 7, 2023
Topic Modeling被引用 23
一句话总结

本文在真实编辑、改写和混合文档的场景下评估大型语言模型的水印鲁棒性,结果表明在观察更多令牌时水印检测仍然可靠,在某些情形下优于一些替代检测器。

ABSTRACT

As LLMs become commonplace, machine-generated text has the potential to flood the internet with spam, social media bots, and valueless content. Watermarking is a simple and effective strategy for mitigating such harms by enabling the detection and documentation of LLM-generated text. Yet a crucial question remains: How reliable is watermarking in realistic settings in the wild? There, watermarked text may be modified to suit a user's needs, or entirely rewritten to avoid detection. We study the robustness of watermarked text after it is re-written by humans, paraphrased by a non-watermarked LLM, or mixed into a longer hand-written document. We find that watermarks remain detectable even after human and machine paraphrasing. While these attacks dilute the strength of the watermark, paraphrases are statistically likely to leak n-grams or even longer fragments of the original text, resulting in high-confidence detections when enough tokens are observed. For example, after strong human paraphrasing the watermark is detectable after observing 800 tokens on average, when setting a 1e-5 false positive rate. We also consider a range of new detection schemes that are sensitive to short spans of watermarked text embedded inside a large document, and we compare the robustness of watermarking to other kinds of detectors.

研究动机与目标

  • 在现实的损坏情境下评估水印鲁棒性,例如人工改写、模型改写,以及复制粘贴到长文档中。
  • 量化攻击对水印可检测性的衰减,以及可检测性如何随观察到的令牌长度而增长。
  • 在各种攻击情景下,将水印检测与其他事后检测与检索型检测进行比较。
  • 提出并评估改进的哈希方案和检测策略,以提高在实际环境中的可靠性。

提出的方法

  • 描述一种组合水印方案,该方案将一部分令牌着色并通过秘密哈希派生的绿名单来偏置采样。
  • 引入并比较改进的哈希方案(SelfHash 和 LeftHash),在上下文宽度为 h 且具有各种 f 映射(Additive、Skip、Min)的设置下以提高鲁棒性。
  • 开发一个窗口化检测测试(WinMax),用于在长文档中定位高信号的跨段。
  • 在不同令牌长度范围内,评估对改写(GPT-3.5-turbo、Dipper)、长文档中的复制粘贴,以及人工改写的鲁棒性。
  • 将其与检索型检测和 DetectGPT 进行基准比较,以评估在攻击下的相对可靠性。

实验结果

研究问题

  • RQ1当水印文本被模型改写或由人工改写时,水印检测的鲁棒性如何?
  • RQ2当水印文本嵌入到较长的、非水印文档中(复制粘贴情景)时,水印检测能否保持可靠?
  • RQ3不同的哈希方案和上下文宽度如何在现实攻击下影响水印的可靠性和文本质量?
  • RQ4在各种攻击类型下,水印检测与其他检测方法(检索型、事后、DetectGPT)相比如何?
  • RQ5在攻击下观察到的令牌数量与检测器性能之间的关系如何?

主要发现

  • 在人工和机器改写后,水印仍可检测;在改写攻击下,ROC-AUC > 0.85 于 T=200,且 > 0.9 于 T=600。
  • 在含有 150 个水印文本的 600-token 段落的复制粘贴情景下,AUC 超过 0.95。
  • 在人工改写攻击下,在约 800 个令牌后以 1e-5 的误报率可检测。
  • 水印在样本复杂度和鲁棒性方面相对于基于损失的检测和检索方法显示出优势,尤其是对于较长的序列。
  • WinMax 窗口化检测提高了对长文档中水印跨段的定位;检测强度随观察到的令牌数量而增强。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。