QUICK REVIEW

[論文レビュー] Scalable Extraction of Training Data from (Production) Language Models

Milad Nasr, Nicholas Carlini|arXiv (Cornell University)|Nov 28, 2023

Adversarial Robustness in Machine Learning被引用数 79

ひとこと要約

この論文は大規模言語モデルにおける抽出可能な memorization を分析し、オープン、セミオープン、そして生産モデルの訓練データの sizable なデータが抽出可能であることを示し、ChatGPT に対する新しい発散攻撃を通じてデータ漏洩を増大させる。

ABSTRACT

This paper studies extractable memorization: training data that an adversary can efficiently extract by querying a machine learning model without prior knowledge of the training dataset. We show an adversary can extract gigabytes of training data from open-source language models like Pythia or GPT-Neo, semi-open models like LLaMA or Falcon, and closed models like ChatGPT. Existing techniques from the literature suffice to attack unaligned models; in order to attack the aligned ChatGPT, we develop a new divergence attack that causes the model to diverge from its chatbot-style generations and emit training data at a rate 150x higher than when behaving properly. Our methods show practical attacks can recover far more data than previously thought, and reveal that current alignment techniques do not eliminate memorization.

研究の動機と目的

オープン、セミオープン、そして生産言語モデルの範囲にわたって抽出可能な memorization を定量化する。
数兆トークンにわたる memorized データを検出する拡張可能な方法論を開発する。
memorization を緩和するためのアライメント技術の有効性を評価する。
半閉鎖モデルにおける memorized データの真の検証方法を提供する。
デプロイ済みの LLMs におけるプライバシーとデータセキュリティへの含意を示す。

提案手法

抽出可能な memorization を、モデルが訓練データを出力する verbatim プロンプトとして定義する。
オープンモデルにおいて、生成系列が訓練データに含まれるかを効率的に検査する suffix-array ベースの検索を用いる。
モデルごとに one billion tokens を生成し、 memorized outputs とユニークな 50-token の sequences を測定する。
Good-Turing 推定と memorized outputs のランクベースの可視化によって総 memorizaton を外挿する。
セミ閉鎖モデルについては public コーパスから AuxDataset (~9 TB) を構築し、32 個の suffix-array 分割を用いて出力をそれと照合する。
ChatGPT については、アライメントを回避し base-model 相当の生成を誘発して memorized data を露出させるプロンプティング・ダイバージェンス戦略を開発する。

実験結果

リサーチクエスチョン

RQ1オープン、セミオープン、そして生産 LLM からどれくらいの訓練データが verbatim の形で抽出可能か？
RQ2モデルサイズ、訓練期間、アライメントは memorization と抽出可能性にどう影響するか？
RQ3既存の抽出手法を trillions of tokens と大規模モデルファミリへスケールさせられるか？
RQ4訓練データが公開されていない場合、memorization を堅牢に検証する戦略は何か？
RQ5ChatGPT のようなデプロイ済み対話モデルに対するプライバシー影響は何か？

主な発見

オープンモデルでは memorized tokens が 0.1% 〜 1%、検討対象の各モデルあたり 365k〜2.9M のユニークな 50-token memorized sequences を持つ。
生成を増やすほど総 memorization は増加し、Good-Turing 外挿は大規模モデルで substantial な memorization を示唆する。
GPT-Neo 6B、Pythia 6.9B、同様のスケールは小規模モデルより高いユニーク memorized sequences と外挿されたカウントを示す。
セミ閉鎖モデル（例：LLaMA、Falcon、GPT-2）は無視できない memorization を示す；外挿された 50-gram memorized sequences はモデルとサイズにより ~38k〜16.7M の範囲。
ChatGPT（gpt-3.5-turbo）は発散プロンプト攻撃時には情報漏洩を受けやすく、ウェブ・マインディングを用いた自動化により GPT-3.5-instruct で extrapolated 50-grams が 1,789,254 に達し、アライメントが memorization を完全には緩和しないことを示唆している。
この研究は discoverable memorization と extractable memorization の間に sizable なギャップがあり、未知の memorized データが substantial に存在することを強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。