QUICK REVIEW

[論文レビュー] Identifying and Mitigating Privacy Risks Stemming from Language Models: A Survey

Victoria Smith, Ali Shahin Shamsabadi|arXiv (Cornell University)|Sep 27, 2023

Topic Modeling被引用数 9

ひとこと要約

この技術的サーベイは言語モデルのプライバシー攻撃の表面をマッピングし、事前トレーニング、微調整、圧縮フェーズを横断して既存の攻撃と緩和策をレビューし、オープンな問題とギャップを強調する。

ABSTRACT

Large Language Models (LLMs) have shown greatly enhanced performance in recent years, attributed to increased size and extensive training data. This advancement has led to widespread interest and adoption across industries and the public. However, training data memorization in Machine Learning models scales with model size, particularly concerning for LLMs. Memorized text sequences have the potential to be directly leaked from LLMs, posing a serious threat to data privacy. Various techniques have been developed to attack LLMs and extract their training data. As these models continue to grow, this issue becomes increasingly critical. To help researchers and policymakers understand the state of knowledge around privacy attacks and mitigations, including where more work is needed, we present the first SoK on data privacy for LLMs. We (i) identify a taxonomy of salient dimensions where attacks differ on LLMs, (ii) systematize existing attacks, using our taxonomy of dimensions to highlight key trends, (iii) survey existing mitigation strategies, highlighting their strengths and limitations, and (iv) identify key gaps, demonstrating open problems and areas for concern.

研究の動機と目的

LMのフェーズとアーキテクチャごとにプライバシー攻撃がどのように異なるかを明確にする。
要素の分類法（攻撃の目的、攻撃者の知識、攻撃対象フェーズ、モデルタイプ）を用いて既存のプライバシー攻撃を調査する。
事前処理、トレーニング時、事後処理にわたる緩和戦略を検討し、それらの長所・短所・ギャップを特定する。

提案手法

LMプライバシー攻撃の顕著な次元の分類法（攻撃目的、攻撃者の知識、トレーニングフェーズ、モデルアーキテクチャ）を提案する。
ブラックボックスおよびホワイトボックス設定で、既存の攻撃（メンバーシップ推定、モデル反転/属性推定、データ抽出、モデル抽出）を調査・分類する。
緩和戦略を事前処理、トレーニング時、事後処理のアプローチに統合し、その有効性と制約を論じる。

実験結果

リサーチクエスチョン

RQ1LMのプライバシー攻撃が異なる主要な次元は何か？
RQ2LMに影響を与える主要な攻撃ファミリーは何か、アクセスレベルとモデルフェーズによってどう異なるか？
RQ3どのようなプライバシー保護技術が存在し、LMのプライバシーリスクを軽減するうえでどのギャップが残っているか？

主な発見

モデルサイズとデータの重複が大きくなると、記憶化とデータ漏洩が増加し、特に最近見た微調整データで顕著である。
メンバーシップ推定攻撃は、監視付きLM、静的埋め込み、事前学習済み、微調整済み、圧縮済みのLLMに対してブラックボックスおよびホワイトボックス設定の下で影響する。データの重複排除は漏洩を減らす。
モデル反転と属性推定は private training data や属性を再構築でき、ホワイトボックスおよびフェデレーション設定で顕著なリスクをもたらす。特定の攻撃は微調整済みモデルから文や属性を回復できる。
データ抽出攻撃はブラックボックス設定でも verbatim のトレーニングデータを明らかにでき、特に事前学習済みおよび微調整済みLLMで顕著。
モデル抽出攻撃はAPI公開モデルを脅かし、機能を複製し、コピーしたモデルに対するホワイトボックス攻撃を通じてさらなる漏洩を引き起こす可能性がある。
緩和アプローチにはデータのサニタイズ、重複排除、差分プライバシー、ナレッジアンラーニングなどが含まれ、サニタイズだけでは不十分であり他の手法と組み合わせるべきであることを強調する。
全てのトレーニングフェーズ（事前学習、微調整、圧縮）にわたるプライバシーリスクの評価と、堅牢でスケーラブルなプライバシー保護技術の開発にはまだギャップが残る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。