Skip to main content
QUICK REVIEW

[论文解读] Watermark Stealing in Large Language Models

Nikola Jovanović, Robin Staab|arXiv (Cornell University)|Feb 29, 2024
Advanced Steganography and Watermarking Techniques被引用 6
一句话总结

该论文将水印窃取在大模型中形式化,并演示一种自动化的窃取方法,能够在低成本下对最先进的水印方案实施实用的伪装与抹除攻击,挑战部署假设。

ABSTRACT

LLM watermarking has attracted attention as a promising way to detect AI-generated content, with some works suggesting that current schemes may already be fit for deployment. In this work we dispute this claim, identifying watermark stealing (WS) as a fundamental vulnerability of these schemes. We show that querying the API of the watermarked LLM to approximately reverse-engineer a watermark enables practical spoofing attacks, as hypothesized in prior work, but also greatly boosts scrubbing attacks, which was previously unnoticed. We are the first to propose an automated WS algorithm and use it in the first comprehensive study of spoofing and scrubbing in realistic settings. We show that for under $50 an attacker can both spoof and scrub state-of-the-art schemes previously considered safe, with average success rate of over 80%. Our findings challenge common beliefs about LLM watermarking, stressing the need for more robust schemes. We make all our code and additional examples available at https://watermark-stealing.org.

研究动机与目标

  • 评估LLM水印对对抗性伪装与 scrubbing 攻击的鲁棒性。
  • 提出并实现一种自动化的水印窃取算法。
  • 在现实威胁模型下,评估KGW2-SELFHASH及其他方案的伪装与抹除效果。
  • 在现实场景中量化水印窃取的实际成本与性能权衡。
  • 强调对设计更鲁棒水印方案的启示。

提出的方法

  • 定义具有探测器访问与基础响应可用性(D0/D1,B0/B1)的威胁模型。
  • 开发一种自动化的水印窃取算法,基于观测到的带水印文本构建经验pw和pb分布,以对标记标记分值。
  • 使用上下文与部分上下文信号计算统一分数 s⋆(T, [T1T2T3]),以预测绿色令牌。
  • 通过用 δatt·s⋆ 增强辅助模型的 logits 以促进绿色令牌(Eq. 2)来实现下游伪装。
  • 通过在改写生成时使用负的 δatt 来降低绿色令牌的概率,从而实现下游抹除。
  • 在KGW2-SELFHASH及其他方案上进行评估,通过GPT-4风格文本质量检查,用FPR⋆@f 衡量伪装,通过FNR⋆@f 衡量抹除。

实验结果

研究问题

  • RQ1水印窃取是否能够在现实情境下跨越主流水印方案可靠地伪装出带水印的输出?
  • RQ2水印窃取在抹除效果提升方面的程度,尤其是对长文本?
  • RQ3实施有效的伪装或抹除攻击所需的实际查询成本是多少?
  • RQ4不同威胁模型设置(D0/D1,B0/B1)如何影响攻击可行性与结果?

主要发现

  • 自动化水印窃取在多种方案上实现伪装,平均成功率超过80%,且一次性查询成本低于50美元。
  • 伪装可以在有害文本中印上水印,使用弱对齐的攻击者模型,挑战归因和声誉防护。
  • 水印窃取显著提升长文本抹除,在KGW2-SELFHASH上平均成功率超过80%,远超基线。
  • KGW2-SUM 显示比 KGW2-SELFHASH 更易抹除,而 KGW2-SELFHASH 部分缓解伪装-抹除权衡。
  • 单音词 UNIGRAM 仍可伪装,存在显著漏洞,而其他方案在伪装/抹除鲁棒性方面各不相同;综合结果显示,窃取降低了对水印部署的感知风险。
  • 通过窃取信号增强的改写抹除在多种改写器(DIPPER、PEGASUS 等)上实现高效能。6

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。