QUICK REVIEW

[論文レビュー] Privacy-Preserving In-Context Learning with Differentially Private Few-Shot Generation

Xinyu Tang, Richard Shin|arXiv (Cornell University)|Sep 21, 2023

Privacy-Preserving Technologies in Data被引用数 8

ひとこと要約

論文は、プライベートデータからの合成的な少数ショットデモンストレーションを生成する微分プライバシー（DP）フレームワークを導入し、巨大言語モデルを用いた文脈内学習（ICL）において無制限のクエリに対するDP保証を維持しつつ、競争力のある精度を達成します。

ABSTRACT

We study the problem of in-context learning (ICL) with large language models (LLMs) on private datasets. This scenario poses privacy risks, as LLMs may leak or regurgitate the private examples demonstrated in the prompt. We propose a novel algorithm that generates synthetic few-shot demonstrations from the private dataset with formal differential privacy (DP) guarantees, and show empirically that it can achieve effective ICL. We conduct extensive experiments on standard benchmarks and compare our algorithm with non-private ICL and zero-shot solutions. Our results demonstrate that our algorithm can achieve competitive performance with strong privacy levels. These results open up new possibilities for ICL with privacy protection for a broad range of applications.

研究の動機と目的

LLM promptingを用いたICLにおけるプライバシーリスクを動機づける。
LLMsをファインチューニングせずに、プライベートデータから合成的な少数ショットデモを生成するDPベースの方法を提案する。
DP生成デモが、さまざまなプライバシー予算下で効果的なICLをサポートし、競争力のある精度を示す。

提案手法

PATEに類似した分離サブセットDP集約を用いて、プライベートなデータセットから合成デモを生成する。
プロンプト構築関数を使い、プライベートサブセットと先に生成されたテキストを条件としてLLMに次のトークンを生成させる。
サブセット間でトークン生成確率をGaussianまたはExponentialメカニズムでプライベートに集約する。
生成中の語彙を制限（RVP：公開トークンのみ）して感度とノイズ影響を低減する。
DPの保証をDP後処理特性を用いて無限のICLクエリへ拡張する。

実験結果

リサーチクエスチョン

RQ1プロンプトデータに正式な微分プライバシー保証を付与してインカート学習を実行できるか。
RQ2DPベースの合成デモ生成は、標準ベンチマークで非プライベートICLおよび完全にプライベートベースラインとどう比較されるか。
RQ3DPメカニズム（Gaussian vs Exponential）と生成戦略（RVP設定、MN、N）間のトレードオフは、ICLパフォーマンスにどう影響するか。

主な発見

データセット	epsilon=0 (0-shot)	epsilon=0 (4-shot)	epsilon=1	epsilon=2	epsilon=4	epsilon=8	epsilon=∞
AGNews	47.9	68.0	64.1	63.5	71.3	68.7	69.3
DBPedia	30.4	60.4	81.2	83.6	83.1	83.4	82.3
TREC	35.4	45.7	50.7	48.6	50.4	51.3	50.6
MIT-G	17.2	40.1	46.3	51.3	54.7	55.9	54.4
MIT-D	47.9	67.2	69.2	73.3	74.6	72.4	80.1

DP合成少数ショット生成は、AGNews、DBPedia、TRECなどのタスクで、epsilon = 1のような低いプライバシー予算下でも競争力のあるICLパフォーマンスを発揮する。
DBPediaでは、epsilon = 1–8のDPベース生成が、複数の設定で非プライベートベースラインに近づく、または同等の結果を達成する（例：83.1–83.6の精度）。
MIT-GおよびMIT-Dでは、DP生成デモが完全にプライベートな0-shotベースラインを大幅に改善し、いくつかの設定で非プライベートのパフォーマンスに近づく。
アブレーションにより、MNとN=1を大きくすると信号対ノイズ比が向上する傾向があり、公開トークン制限（RVP）は結果を安定化させ、性能を改善することがある。
プライベートデータを含まない純粋な指示型生成でも強力なゼロショットデモが得られるが、ほとんどのデータセットでプライベートデータを組み込むと結果が改善される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。