Skip to main content
QUICK REVIEW

[論文レビュー] Watermarking Text Generated by Black-Box Language Models

Xi Yang, Kejiang Chen|arXiv (Cornell University)|May 14, 2023
Internet Traffic Analysis and Secure E-voting被引用数 12
ひとこと要約

本論文は、ブラックボックス型LLMが生成するテキストに認証用ウォーターマークを注入・検出するフレームワークを提案し、モデル内部にアクセスせず第三者がコンテンツへウォーターマークを付与・検証できるようにし、一般的なテキスト攻撃に対する頑健性を示します。

ABSTRACT

LLMs now exhibit human-like skills in various fields, leading to worries about misuse. Thus, detecting generated text is crucial. However, passive detection methods are stuck in domain specificity and limited adversarial robustness. To achieve reliable detection, a watermark-based method was proposed for white-box LLMs, allowing them to embed watermarks during text generation. The method involves randomly dividing the model vocabulary to obtain a special list and adjusting the probability distribution to promote the selection of words in the list. A detection algorithm aware of the list can identify the watermarked text. However, this method is not applicable in many real-world scenarios where only black-box language models are available. For instance, third-parties that develop API-based vertical applications cannot watermark text themselves because API providers only supply generated text and withhold probability distributions to shield their commercial interests. To allow third-parties to autonomously inject watermarks into generated text, we develop a watermarking framework for black-box language model usage scenarios. Specifically, we first define a binary encoding function to compute a random binary encoding corresponding to a word. The encodings computed for non-watermarked text conform to a Bernoulli distribution, wherein the probability of a word representing bit-1 being approximately 0.5. To inject a watermark, we alter the distribution by selectively replacing words representing bit-0 with context-based synonyms that represent bit-1. A statistical test is then used to identify the watermark. Experiments demonstrate the effectiveness of our method on both Chinese and English datasets. Furthermore, results under re-translation, polishing, word deletion, and synonym substitution attacks reveal that it is arduous to remove the watermark without compromising the original semantics.

研究の動機と目的

  • ブラックボックス型LLMが生成するテキストの信頼性の高い検出と認証の必要性を動機づける。
  • モデルの確率値や内部情報にアクセスせずに動作するウォーターマーキングのフレームワークを提案する。
  • ウォーターマークを注入するための二値エンコーディングと文脈ベースの同義語置換手法を設計する。
  • 高速で精密なモードを備えた統計的検出機構を提供する。
  • 翻訳や同義語変更などの書き換え攻撃に対する頑健性を、言語間で評価する。

提案手法

  • 語とその前駆語のハッシュに基づいて各語をランダムなビットにマッピングする二値エンコーディング関数を定義する。
  • POSフィルタと意味論・類似度チェックを用いて、ビット0の語をビット1を表す文脈ベースの同義語に置換してウォーターマークを注入する。
  • 文に適した多面的な類似性チェック(文全体、語のグローバル、文脈化語埋め込み)を用いたBERTベースの文脈依存同義語生成を用いて高品質な同義語を選択する。
  • 意味を保ちつつビット1の出現を最大化するウォーターマーク駆動の同義語サンプリングアルゴリズムを採用する。
  • ビット1のエンコード割合に基づく統計的仮説検定を用いてウォーターマークを検出し、高速および正確な検出モードを提供する。
  • 標準的なNLPツール(SHA-256、BERT、RoBERTa、GloVe)を用いて類似度を計算し、中国語および英語のHC3データセットで実験的に評価する。

実験結果

リサーチクエスチョン

  • RQ1モデルの確率値や内部情報にアクセスせずに、ブラックボックスLLMが生成したテキストに信頼性の高いウォーターマークを注入できるか。
  • RQ2翻訳、文の磨き直し、語の削除、同義語置換といったポスト処理攻撃に対してウォーターマークは頑健か。
  • RQ3本フレームワークは言語間(英語と中国語)で機能し、意味的整合性を維持するか。
  • RQ4実際の条件下で、快速検出モードと精密検出モードのウォーターマーク識別効果はどれくらいか。

主な発見

  • 提案されたフレームワークは、ブラックボックスモデルのテキストに認証用ウォーターマークを付与でき、英語と中国語のデータ両方で意味を保つ。
  • 提案された統計検定を用いたウォーターマーク検出は、制御された設定でウォーターマーク付きのテキストとなしのテキストを高い有意性で識別できる。
  • 一般的な後処理攻撃下でも、元の意味を劣化させずにウォーターマークを削除することは難しい。
  • 2つの検出モード(高速と精密)は計算時間と検出精度の間でトレードオフを提供し、ROC/AUCの結果は実験で強力な検出性能を示している。
  • HC3データセットでの実験は、文脈ベースの同義語生成と整合性の高い意味品質を、複数の類似度基準で測定したところ示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。