[論文レビュー] Undetectable Watermarks for Language Models
本論文は言語モデル出力の検出不可な透かしを定義・構築し、秘密鍵でのみ検出可能で、テキスト品質を保持し、適応的クエリにも頑健である。
Recent advances in the capabilities of large language models such as GPT-4 have spurred increasing concern about our ability to detect AI-generated text. Prior works have suggested methods of embedding watermarks in model outputs, by noticeably altering the output distribution. We ask: Is it possible to introduce a watermark without incurring any detectable change to the output distribution? To this end we introduce a cryptographically-inspired notion of undetectable watermarks for language models. That is, watermarks can be detected only with the knowledge of a secret key; without the secret key, it is computationally intractable to distinguish watermarked outputs from those of the original model. In particular, it is impossible for a user to observe any degradation in the quality of the text. Crucially, watermarks should remain undetectable even when the user is allowed to adaptively query the model with arbitrarily chosen prompts. We construct undetectable watermarks based on the existence of one-way functions, a standard assumption in cryptography.
研究の動機と目的
- 言語モデルの検出不能な透かしの暗号的概念を形式化する。
- モデル出力のランダム性を測る指標として empirical entropy を導入する。
- 強い完全性と健全性保証を備えた検出不能透かし手法を開発する。
- 前提条件の必然性を示し、透かしの除去性について議論する。
提案手法
- 秘密鍵を用いた Setup, Wat, Detect として透かし付けを定義する。
- empirical entropy と substring-complete variant を導入する。
- 検出不能で、健全かつ完全な透かし手法を構築する。
- 構築と解析を簡略化するために二進アルファベットへ還元する。
- ランダムオラクルを PRF に置換して実用性を高める。
- 定理1と定理2を含む理論的保証を提供する。
実験結果
リサーチクエスチョン
- RQ1品質への検出可能な劣化を伴わずに言語モデル出力に透かしを埋め込むことは可能か?
- RQ2適応的クエリに対して、そのような透かしに対してどのような形式的保証(検出不可、完全性、健全性)が達成可能か?
- RQ3empirical entropy が透かしの検出可能性と完全性に与える影響は?
- RQ4random oracles のような理想化された仮定なしに検出不能透かしを実装することは可能か?
- RQ5強力なクエリアクセス下で透かしの除去性に対する検出不能透かしの頑健性はどれくらいか?
主な発見
- 検出不能で検出不能、健全で O(λ√L)-完全な透かし付けスキームを構築できる。
- 強化されたスキームは検出不能、健全、かつ O(λ√L)-substring-complete の保証を達成する。
- 完全性はモデル出力に十分に高い empirical entropy を必要とする。
- random-oracle 仮定を外すことは実用性を高めるが、いくつかの保証(e.g., weakly-sound)に影響を及ぼす。
- PRF ベースの置換により実用的なスキームを実現できるが、健全性とトレードオフが生じる。
- 本研究は、特定の強力なクエリアクセス仮定の下で透かしを除去することが可能であることを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。