[論文レビュー] Watermark Stealing in Large Language Models
本論文はLLMにおけるウォーターマーク盗用を形式化し、最先端のウォーターマーク手法に対して低コストで実用的な偽装(spoofing) およびスクラブ攻撃を可能とする自動的な盗用手法を実証し、デプロイ時の前提を覆す。
LLM watermarking has attracted attention as a promising way to detect AI-generated content, with some works suggesting that current schemes may already be fit for deployment. In this work we dispute this claim, identifying watermark stealing (WS) as a fundamental vulnerability of these schemes. We show that querying the API of the watermarked LLM to approximately reverse-engineer a watermark enables practical spoofing attacks, as hypothesized in prior work, but also greatly boosts scrubbing attacks, which was previously unnoticed. We are the first to propose an automated WS algorithm and use it in the first comprehensive study of spoofing and scrubbing in realistic settings. We show that for under $50 an attacker can both spoof and scrub state-of-the-art schemes previously considered safe, with average success rate of over 80%. Our findings challenge common beliefs about LLM watermarking, stressing the need for more robust schemes. We make all our code and additional examples available at https://watermark-stealing.org.
研究の動機と目的
- LLMウォーターマークの堅牢性を対向的な spoofing および scrubbing 攻撃に対して評価する。
- 自動的なウォーターマーク盗用アルゴリズムを提案・実装する。
- 現実的な脅威モデルの下でKGW2-SELFHASHおよび他の方式に対する偽装およびスクラブの有効性を評価する。
- 実世界設定におけるウォーターマーク盗用の実用コストとパフォーマンスのトレードオフを定量化する。
- より堅牢なウォーターマーク設計の示唆を強調する。
提案手法
- 検出器アクセスと基礎応答利用可能性(D0/D1, B0/B1)を含む脅威モデルを定義する。
- 観測されたウォーターマーク付きテキストから経験的 pw および pb 分布を構築してトークンをスコアリングする自動的なウォーターマーク盗用アルゴリズムを開発する。
- 文脈および部分文脈信号を用いて緑色トークンを予測する統一スコア s⋆(T, [T1T2T3]) を計算する。
- δatt·s⋆を用いて補助モデルのロジットを増強し、緑色トークンを促進することで下流の偽装を行う(Eq. 2)。
- パラフレーズ生成時に負の δatt を用いて緑色トークンを抑制することで下流のスクラブを行う。
- KGW2-SELFHASHおよびその他のスキーム全体を評価し、偽装を FPR⋆@f、スクラブを FNR⋆@f で測定し、GPT-4 スタイルのテキスト品質チェックを用いる。
実験結果
リサーチクエスチョン
- RQ1主要なウォーターマーク方式で、現実的な設定においてウォーターマーク盗用が信頼性高くウォーターマーク付き出力を偽装できるか?
- RQ2長文に対して特に、ウォーターマーク盗用がスクラブの有効性をどの程度向上させるか?
- RQ3効果的な偽装またはスクラブ攻撃を仕掛けるために必要な実用的なクエリコストはどれくらいか?
- RQ4さまざまな脅威モデル設定(D0/D1, B0/B1)は攻撃の実行可能性と結果にどのように影響するか?
主な発見
- 自動化されたウォーターマーク盗用は、複数の方式に対して一度のクエリコストが50ドル未満で、平均成功率80%以上の偽装を達成する。
- 偽装は、低度に整列した攻撃者モデルを用いて有害なテキストにウォーターマークを刻むことができ、帰属と評判保護を難しくする。
- ウォーターマーク盗用は長文のスクラブを大幅に向上させ、KGW2-SELFHASHで平均成功率が80%以上に上昇し、ベースラインを大きく上回る。
- KGW2-SUMはKGW2-SELFHASHよりスクラブが容易であり、KGW2-SELFHASHは偽装とスクラブのトレードオフを部分的に緩和する。
- Unigram (UNIGRAM) はなお偽装可能で顕著な脆弱性を有し、他の方式は偽装/スクラブの堅牢性にばらつきがある;結果を通じて、盗用はウォーターマークのデプロイリスクの認識を低下させる。
- Paraphrasing-based scrubbing boosted by the stolen signal achieves high effectiveness across multiple paraphrasers (DIPPER, PEGASUS, etc.).6
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。