[論文レビュー] Extracting Training Data from Large Language Models
この論文はGPT-2に対するブラックボックスのトレーニングデータ抽出攻撃を実証し、数百の厳密なトレーニング例を回収し、機密情報を明らかにし、memorization に影響を与える要因を分析し、緩和策を提案している。
It has become common to publish large (billion parameter) language models that have been trained on private datasets. This paper demonstrates that in such settings, an adversary can perform a training data extraction attack to recover individual training examples by querying the language model. We demonstrate our attack on GPT-2, a language model trained on scrapes of the public Internet, and are able to extract hundreds of verbatim text sequences from the model's training data. These extracted examples include (public) personally identifiable information (names, phone numbers, and email addresses), IRC conversations, code, and 128-bit UUIDs. Our attack is possible even though each of the above sequences are included in just one document in the training data. We comprehensively evaluate our extraction attack to understand the factors that contribute to its success. Worryingly, we find that larger models are more vulnerable than smaller models. We conclude by drawing lessons and discussing possible safeguards for training large language models.
研究の動機と目的
- ブラックボックスアクセスのみを用いて、大規模言語モデルに対する実用的なトレーニングデータ抽出攻撃を実証する。
- 公開ソースのデータで訓練されたGPT-2における記憶化の程度と性質を定量化する。
- 記憶化と情報漏洩に影響を与える要因(モデルサイズ、データ頻度)を特定する。
- 緩和策を提案し、プライバシーを保護する訓練手法とそのトレードオフを検討する。
提案手法
- さまざまなサンプリング戦略を用いて、ターゲットLMから高確率サンプルの大規模な集合を生成する。
- 複数のメンバーシップ推定指標を用いて、参照モデルと比較しておそらく記憶された系列をランク付け・選択する。
- モデル著者の協力のもと、モデルの訓練データと照合することで、記憶された出力を検証する。
- 記憶挙動を研究するため、モデルサイズ、サンプリング設定、データ特性を系統的に変更する。
- 抽出成功率に対する文字列頻度、モデルサイズ、攻撃設定の影響を分析する。
- 差分プライバシー、データの重複排除、およびその他の戦略を含む実践的な緩和策を議論する。
実験結果
リサーチクエスチョン
- RQ1ブラックボックスアクセスの下で、大規模言語モデルはどの程度記憶し、訓練データを厳密に漏らすのか?
- RQ2記憶化と抽出成功に影響を与える要因(モデルサイズ、データ頻度、サンプリング手法)は何か?
- RQ3 memorized content を特定する際、異なる攻撃構成とメンバーシップ推定指標の有効性はどれほどか?
- RQ4モデルの有用性を著しく損なうことなく、記憶化を減らすことのできる緩和策は何か?
- RQ5観察された記憶現象はGPT-2を超えるモデルにも一般化しそうか?
主な発見
- ブラックボックスクエリを用いて、攻撃者はGPT-2から数百の厳密なトレーニング系列を抽出できる。
- 最良の設定では、候補サンプルの67%が厳密なトレーニング例である。
- 記憶された内容には名前、メールアドレス、電話番号、IRC会話、コード、および128ビットのUUIDが含まれる可能性がある。
- GPT-2ファミリ内で、より大きなモデルは小さなモデルより記憶化の脆弱性が高いことを示す。
- サンプリング、温度減衰、インターネットプレフィックス条件付け、複数の推論指標など、2ダースの攻撃戦略が評価され、堅牢な抽出パターンを明らかにした。
- 差分プライバシーや慎重なデータ重複排除などの緩和策は役立つが、漏えいを完全には防げない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。