[論文レビュー] Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory
本論文は ConfAIde を導入し、LLM の文脈的整合性という観点からプライバシー推論を評価する階層ベンチマークを提案し、GPT-4 や ChatGPT のようなトップモデルにおいても私的情報の漏洩が実質的にあることを発見し、推論時のプライバシー解決策を原理的に検討する必要性を強調する。
The interactive use of large language models (LLMs) in AI assistants (at work, home, etc.) introduces a new set of inference-time privacy risks: LLMs are fed different types of information from multiple sources in their inputs and are expected to reason about what to share in their outputs, for what purpose and with whom, within a given context. In this work, we draw attention to the highly critical yet overlooked notion of contextual privacy by proposing ConfAIde, a benchmark designed to identify critical weaknesses in the privacy reasoning capabilities of instruction-tuned LLMs. Our experiments show that even the most capable models such as GPT-4 and ChatGPT reveal private information in contexts that humans would not, 39% and 57% of the time, respectively. This leakage persists even when we employ privacy-inducing prompts or chain-of-thought reasoning. Our work underscores the immediate need to explore novel inference-time privacy-preserving approaches, based on reasoning and theory of mind.
研究の動機と目的
- Contextual privacy を推論時のコアリスクとして動機づけ、形式化する。
- Contextual Integrity 理論を実装化して、LLM のプライバシー推論のスケーラブルなベンチマークを作成する。
- 増加する文脈的複雑性にわたって、人間のプライバシー期待とモデル判断の整合性を評価する。
- シンプルなプライバシー促進プロンプトやチェーン・オブ・ソート思考(CoT)アプローチを緩和策として用いた場合の限界を示す。
提案手法
- 文脈的整合性理論と心の理論(ToM)を核となる構成要素として、プライバシー推論を根拠づける。
- Info-Sensitivity、InfoFlow-Expectation、InfoFlow-Control、InfoFlow-Application の4つの階層で、文脈的複雑性を段階的に高めた ConfAIde を構築する。
- 種となるコンポーネントと ToM 主導のシナリオを用いて、因子設計的かつ現実世界に近いプロンプトを作成し、複数モデルで評価する。
- 人間の注釈とモデル出力を用いて評価する。統制されたプロンプトと漏洩検出手法(string-match と proxy agent を含む)。
- CoT(チェーン・オブ・ソート)による緩和策を検討し、漏洩とタスク有用性への影響を評価する。
実験結果
リサーチクエスチョン
- RQ1インタラクティブな設定において、文脈的複雑性が高まる中で LLM は文脈的プライバシーについて推論できるか。
- RQ2階層化された文脈状況において、指示チューニング済みの LLM は人間のプライバシー判断とどれだけ一致するか。
- RQ3プライバシー制約の下で情報共有を生成または正当化する際に、具体的などのような漏洩パターンが現れるか。
- RQ4単純なプロンプトやCoT推論は推論時のプライバシー漏洩に対する有効な緩和策となるか。
- RQ5会議要約のような実世界タスクにおける推論時プライバシー保護の現行手法の限界は何か。
主な発見
- GPT-4 と ChatGPT は Tier 3 の文脈でそれぞれ 22% および 93% の頻度で私的情報を開示する。
- Tier 4 のシナリオのうち不適切な主体への漏洩は 39% (GPT-4) および 57% (ChatGPT) で発生。
- 人間とモデルのプライバシー判断の相関は、階層が複雑になるにつれて低下する(Tier 1: 上位モデルで ~0.86–0.92、Tier 3: ~0.10–0.05)。
- 上位階層のタスクは、ToM と情報フロー制御のギャップが、GPT-4/ChatGPTと比較してオープンソースモデルで深刻であることを示す。
- CoT プロンプトは一般に漏洩を改善せず、会議要約生成を含むいくつかのタスクでは悪化させる可能性がある。
- Tier 4 の適用結果は、プライバシー指示にもかかわらず高い漏洩と集約エラーを示し、機密情報と公開情報の区別に顕著な失敗を含む。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。