[論文レビュー] Beyond Memorization: Violating Privacy Via Inference with Large Language Models
この論文は、事前学習済みLLMsが推論時にテキストから広範な個人属性を高精度で推測できることを示し、人間よりはるかに低コスト・短時間で、現在の匿名化と整合性防御はこの推論に対して効果がない。
Current privacy research on large language models (LLMs) primarily focuses on the issue of extracting memorized training data. At the same time, models' inference capabilities have increased drastically. This raises the key question of whether current LLMs could violate individuals' privacy by inferring personal attributes from text given at inference time. In this work, we present the first comprehensive study on the capabilities of pretrained LLMs to infer personal attributes from text. We construct a dataset consisting of real Reddit profiles, and show that current LLMs can infer a wide range of personal attributes (e.g., location, income, sex), achieving up to $85\%$ top-1 and $95\%$ top-3 accuracy at a fraction of the cost ($100\times$) and time ($240\times$) required by humans. As people increasingly interact with LLM-powered chatbots across all aspects of life, we also explore the emerging threat of privacy-invasive chatbots trying to extract personal information through seemingly benign questions. Finally, we show that common mitigations, i.e., text anonymization and model alignment, are currently ineffective at protecting user privacy against LLM inference. Our findings highlight that current LLMs can infer personal data at a previously unattainable scale. In the absence of working defenses, we advocate for a broader discussion around LLM privacy implications beyond memorization, striving for a wider privacy protection.
研究の動機と目的
- memorization を超えた LLM 推論によるプライバシー脅威を形式化する。
- 実世界のテキストから多様な個人属性を推定するLLMの能力を評価する。
- プライバシー対策としての匿名化とモデル整合性の有効性を評価する。
- プライベート情報を抽出する敵対的なチャットボットを探る。
- 再現性を支援する合成データとツールを公開する。
提案手法
- 事前学習済みLLM Mを用いて敵 adversaries A1(自由テキスト推論)と A2(敵対的相互作用)を定義する。
- 8属性に注釈された520プロフィールと5814コメントからなるPersonalRedditデータセットを構築する。
- 固定プロンプトテンプレートを用いて9つの最先端LLM(例: GPT-4、Claude、Llama 2)から属性推論を誘発する。
- 実データと匿名化の下でTop-1およびTop-3属性予測精度を評価する。
- プライバシー侵害的なチャットボットをシミュレートして敵対的相互作用の実現性を検証する。
- プライバシー漏洩に対する Azureベースの匿名化ツールと提供者の整合性の有効性を分析する。
実験結果
リサーチクエスチョン
- RQ1 事前学習済みのLLMは推論時に非構造化テキストから広範な個人属性を推測できるか?
- RQ2 モデルサイズとファミリーは属性推論精度にどう影響しますか?
- RQ3 現行のテキスト匿名化ツールはLLMベースの推論に対して有効ですか?
- RQ4 モデル整合性と提供者のポリシーはプライバシー侵害的なプロンプトを緩和しますか?
- RQ5 敵対的なチャットボットはユーザーから有意義な私情報を抽出できますか?
主な発見
| Attr | GPT-4 Accuracy (%) |
|---|---|
| SEX | 97.8 |
| LOC | 86.2 |
| MAR | 91.5 |
| AGE | 78.3 |
| SCH | 67.8 |
| OCC | 71.6 |
| POB | 92.7 |
| INC | 62.5 |
- GPT-4はPersonalReddit上で属性全体に対して85.5%のTop-1精度、95.2%のTop-3精度を達成。
- 位置推定は約86%の精度、性別と出生地は90%を超える。
- 9つのLLM全体で推論性能はモデルサイズとともにスケールし、低コストでほぼ人間に近い性能に近づく。
- 匿名化は精度を低下させるが著しく不完全で、漏洩は依然として顕著(例:匿名化後の位置精度は低下するが約55%程度のまま)。
- プライバシー侵害的なチャットボットは会話を誘導して私情報を引き出せ、模擬対話で属性全体のTop-1精度59.2%を達成。
- 現行の提供者整合性はプライバシー侵害的プロンプトの拒否が限定的である(例:提供者により0–10.7%のプロンプトが拒否)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。