QUICK REVIEW

[論文レビュー] Provable Robust Watermarking for AI-Generated Text

Xuandong Zhao, Prabhanjan Ananth|arXiv (Cornell University)|Jun 30, 2023

Generative Adversarial Networks and Image Synthesis被引用数 16

ひとこと要約

この論文は Unigram-Watermark を導入する。AI生成テキストのための証明可能に頑健な水印法で、生成品質を維持しつつ検出の信頼性と編集・言い換え攻撃への強い耐性を実現し、形式的な保証と実証的検証を提供する。

ABSTRACT

We study the problem of watermarking large language models (LLMs) generated text -- one of the most promising approaches for addressing the safety challenges of LLM usage. In this paper, we propose a rigorous theoretical framework to quantify the effectiveness and robustness of LLM watermarks. We propose a robust and high-quality watermark method, Unigram-Watermark, by extending an existing approach with a simplified fixed grouping strategy. We prove that our watermark method enjoys guaranteed generation quality, correctness in watermark detection, and is robust against text editing and paraphrasing. Experiments on three varying LLMs and two datasets verify that our Unigram-Watermark achieves superior detection accuracy and comparable generation quality in perplexity, thus promoting the responsible use of LLMs. Code is available at https://github.com/XuandongZhao/Unigram-Watermark.

研究の動機と目的

水印の有効性・正確性・ポスト処理に対する頑健性を定量化する厳密な枠組みを公式化する。
固定の緑/赤分割を持つ頑健で単純な水印スキームとして Unigram-Watermark (K=1) を提案する。
テキスト長に伴う Type I/II エラーの生成品質保証と指数的減衰を証明する。
編集および言い換えに対する頑健性の保証を理論的・実証的に示す。
複数モデルとデータセットに跨る実用的な有効性を示す。）

提案手法

固定のグリーンリストとグリーントークンの logit シフト delta を用いた Watermark と Detect アルゴリズムを定義する。
グリーンリストのトークン数に対する z-統計量を用いて水印付きテキストを判定する。
分布変化に対する Renyi-分散の境界、Type I/II エラーの境界、ポスト処理に対するセキュリティを証明可能に提供する。
ω-品質の水印出力と編集耐性を理論的定理で証明する。
prior soft watermark への Unigram-Watermark の比較を行い、攻撃下での頑健性の優位性を示す。
GPT2-XL、OPT-1.3B、LLaMA-7B を OpenGen と LFQA データセットで用い、検出性能と生成品質を示す。

実験結果

リサーチクエスチョン

RQ1ユニグラムベースの水印が検出精度と編集に対する頑健性の証明可能な保証を提供できるか？
RQ2モデルとデータセット間で水印の強度、検出力、テキスト品質の定量的トレードオフはどうなるか？
RQ3言い換えおよび編集攻撃の下で Unigram-Watermark は従来の水印方式と比較してどうなるか？
RQ4テキスト長が増加するにつれて Type I および Type II のエラー率はどの条件下で減衰するか？
RQ5水印は一般的なポスト処理攻撃に対して頑健で、生成品質を維持できるか？

主な発見

データセット	手法	1% FPR TPR	1% FPR F1	10% FPR TPR	10% FPR F1
OpenGen	KGW+23	1.000	0.995	1.000	0.952
OpenGen	Unigram-Watermark	1.000	0.995	1.000	0.952
LFQA	KGW+23	1.000	0.995	1.000	0.952
LFQA	Unigram-Watermark	1.000	0.952	1.000	0.952

Unigram-Watermark は OpenGen および LFQA で攻撃なしの場合、1% および 10% の偽陽性率で検出率がほぼ完全または完全に近い（TPR ~1.000、FPR 0.01/0.10）を達成する。
言い換えおよび編集攻撃下でも、Unigram-Watermark は複数のモデルで一貫して KGW+23 を上回り、高い検出率を維持する。
水印付きテキストは人間生成テキストに近い困惑度を保持し、生成品質が維持されていることを示す。
理論的保証により、水印付き分布と元の分布間の Renyi-ダイバージェンスが delta によって厳しく制限され、ω-品質を保証する。
テキスト長が増えるとともに閾値のキャリブレーションによって Type I の誤りを所望の alpha 以下に制御でき、指数的減衰が現れる。
セキュリティ結果は編集耐性を示し、 bounded 編集下で z-スコアがわずかにしか変化せず、従来の研究より回復力が向上していることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。