QUICK REVIEW

[論文レビュー] LAMP: Extracting Text from Gradients with Language Model Priors

Mislav Balunović, Dimitar I. Dimitrov|arXiv (Cornell University)|Feb 17, 2022

Privacy-Preserving Technologies in Data被引用数 21

ひとこと要約

LAMPは、勾配再構成とGPT-2ベースの言語事前分布を組み合わせ、連続最適化と離散最適化を交互に行うことで、フェデレーテッド学習におけるテキストモデルを攻撃し、勾配からプライベートなテキストを回復する。これにより、再構成されたテキストの現実味と長さの点で従来の方法を上回る。

ABSTRACT

Recent work shows that sensitive user data can be reconstructed from gradient updates, breaking the key privacy promise of federated learning. While success was demonstrated primarily on image data, these methods do not directly transfer to other domains such as text. In this work, we propose LAMP, a novel attack tailored to textual data, that successfully reconstructs original text from gradients. Our attack is based on two key insights: (i) modeling prior text probability with an auxiliary language model, guiding the search towards more natural text, and (ii) alternating continuous and discrete optimization, which minimizes reconstruction loss on embeddings, while avoiding local minima by applying discrete text transformations. Our experiments demonstrate that LAMP is significantly more effective than prior work: it reconstructs 5x more bigrams and 23% longer subsequences on average. Moreover, we are the first to recover inputs from batch sizes larger than 1 for textual models. These findings indicate that gradient updates of models operating on textual data leak more information than previously thought.

研究の動機と目的

フェデレーテッド学習において、テキストモデルからの勾配更新がユーザーのプライベートなテキストを漏らすことを動機づけ、実証する。
言語モデルの事前情報を用いて再構成を自然なテキストへ導く、テキスト特化型の勾配漏えい攻撃であるLAMPを提案する。
LAMPが、さまざまなモデルとバッチサイズにおいて、先行攻撃より長い2-gram以上のテキスト（ビグラムおよびそれ以上の連続部分）を回復できることを示す。
より現実的な設定（より大きなバッチサイズ、ファインチューニング済みモデル、ディフェンス済みモデルを含む）でLAMPを評価する。

提案手法

ガウス事前分布からトークン埋め込みをサンプリングして再構成を初期化する。
再構成の勾配を観測されたクライアント勾配に整合させる再構成損失を最小化し、L2/L1またはコサインベースの勾配損失を用いる。
語彙統計に沿うよう埋め込みノルムを保つ埋め込み長さ正則化を適用する。
埋め込みに対する勾配降下法などの連続最適化と、変換による候補文生成と再構成損失とパープレキシティを組み合わせて選択する離散最適化を、反復的に交互に実行する。
補助的な言語モデル（例：GPT-2）を用いてパープレキシティを計算し、離散探索を自然なテキストへと導く。
最終的な埋め込みを最も近い語彙トークンへ射影して再構成されたテキストを得る。

実験結果

リサーチクエスチョン

RQ1トランスフォーマーベースのモデルにおいて、フェデレーテッド学習での勾配更新からテキスト入力を再構成できるか？
RQ2言語モデルの事前情報を組み込むことで、従来の勾配漏えい手法と比較して再構成テキストの自然さと精度が向上するか？
RQ3バッチサイズ、モデルサイズ、ファインチューニングは、勾配を介したテキストデータの漏えいにどう影響するか？
RQ4ディフェンスされたモデルやプライベートに訓練されたモデルは、LAMPを使用した場合でも勾配漏えいに依然として脆弱か？
RQ5連続最適化と離散最適化の成分が再構成品質に与える影響は何か？

主な発見

LAMPは従来の攻撃よりはるかに多くのテキストを再構成し、特定の設定ではビグラムを最大5倍、連続部分を平均23%長く再構成する。
LAMPは複数のBERT系（BASE、LARGE）およびTinyBERTでも効果的で、ファインチューニング済みモデルやディフェンス済みモデルを含む。
LAMPはバッチサイズが1を超える場合でもテキスト再構成を可能にし、テキスト的勾配漏えいのためにこれまで検討されていなかった設定を開く。
言語事前情報としてGPT-2を用いると、再構成テキストの現実味と一貫性が改善される。
離散変換と言語モデルのパープレキシティガイダンスを組み合わせると、勾配損失のみに依存するより良い結果が得られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。