Skip to main content
QUICK REVIEW

[論文レビュー] Watermarks in the Sand: Impossibility of Strong Watermarking for Generative Models

Hanlin Zhang, Benjamin Edelman|arXiv (Cornell University)|Nov 7, 2023
Advanced Steganography and Watermarking Techniques被引用数 10
ひとこと要約

この論文は、自然な仮定の下で生成モデルの強力なウォーターマークは不可能であることを証明し、出力品質を最小限に損なう形で水印を除去する3つのLLMスキームに対する一般的な品質保持攻撃を導入する。

ABSTRACT

Watermarking generative models consists of planting a statistical signal (watermark) in a model's output so that it can be later verified that the output was generated by the given model. A strong watermarking scheme satisfies the property that a computationally bounded attacker cannot erase the watermark without causing significant quality degradation. In this paper, we study the (im)possibility of strong watermarking schemes. We prove that, under well-specified and natural assumptions, strong watermarking is impossible to achieve. This holds even in the private detection algorithm setting, where the watermark insertion and detection algorithms share a secret key, unknown to the attacker. To prove this result, we introduce a generic efficient watermark attack; the attacker is not required to know the private key of the scheme or even which scheme is used. Our attack is based on two assumptions: (1) The attacker has access to a "quality oracle" that can evaluate whether a candidate output is a high-quality response to a prompt, and (2) The attacker has access to a "perturbation oracle" which can modify an output with a nontrivial probability of maintaining quality, and which induces an efficiently mixing random walk on high-quality outputs. We argue that both assumptions can be satisfied in practice by an attacker with weaker computational capabilities than the watermarked model itself, to which the attacker has only black-box access. Furthermore, our assumptions will likely only be easier to satisfy over time as models grow in capabilities and modalities. We demonstrate the feasibility of our attack by instantiating it to attack three existing watermarking schemes for large language models: Kirchenbauer et al. (2023), Kuditipudi et al. (2023), and Zhao et al. (2023). The same attack successfully removes the watermarks planted by all three schemes, with only minor quality degradation.

研究の動機と目的

  • 強力なウォーターマークを実用化する必要性を動機づけるため、モデル出力を人間のテキストと区別し、悪用を防ぐ。
  • 生成モデルの秘密鍵強力ウォーターマークを形式的に定義する。
  • 実用的な仮定の下でそのようなウォーターマークが堅牢であり得ないという不可能性の結果を証明する。
  • 品質と摂動オラクルを用いた一般的な品質保持攻撃を提案し、実装する。
  • 三つの既存LLMウォーターマークスキームに対して攻撃を実験的にデモンストレーションする。

提案手法

  • プロンプト–応答ペアの普遍的な品質関数Qを用いて生成モデルを形式化する。
  • WatermarkとDetect手順を用いた秘密鍵ウォーターマークを定義し、偽陽性/偽陰性率を定量化する。
  • 摂動オラクルと品質オラクル(アルゴリズム1)を用いた品質保持のランダムウォークに基づく一般的で効率的な攻撃を導入する。
  • 高い確率で水印を除去しつつ品質を保持できるという非公式な主結果(定理1)を証明する;正式表現は付録Bにある。
  • Kirchenbauer ら (2023a), Kuditipudi ら (2023), Zhao ら (2023a) のスキームをLlama2-7Bで攻撃し、実装して検証する。
  • 水印検出が品質のわずかな損失で劣化する実験的証拠を提供する。

実験結果

リサーチクエスチョン

  • RQ1自然な仮定の下で生成モデルの強力なウォーターマークは達成可能か?
  • RQ2出力品質を保持しつつ水印を消去できる効率的な攻撃者は存在するか?
  • RQ3秘密鍵ウォーターマークスキームは水印付きモデルへブラックボックスアクセスの下で安全性を保てるか?
  • RQ4攻撃とその影響は異なるウォーターマークスキームやモダリティ全体でどのように一般化するか?

主な発見

フレームワークC4リアルニュースGPT-4ジャッジzスコアp値
UMD [ 27 ]6.236 → 1.6280.002 → 0.187-0.0877
Unigram [ 67 ]8.210 → 1.4564.563e-11 → 0.208-0.0812
EXP [ 31 ]3.540 → 0.745< 1/5000 → 0.3119-0.0675
  • 品質オラクルと摂動オラクルが与えられた場合、攻撃者は高い確率で水印を除去し品質を保持できる。
  • 攻撃は3つの公開LLMウォーターマークスキームから水印を成功裡に除去し、品質は大きく崩さない。
  • 実験結果は、ウォーターマーク検出確率が低下する(zスコアとp値は非有意の水印検出を示す)一方、出力品質はGPT-4による比較で維持されている。
  • 本研究は構成的な攻撃と形式的/非公式の理論結果を提供する(非公式の定理1;正式な述語は付録Bに記載)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。