QUICK REVIEW

[論文レビュー] Privacy-Preserving Instructions for Aligning Large Language Models

Yu Da, Peter Kairouz|arXiv (Cornell University)|Feb 21, 2024

Privacy-Preserving Technologies in Data被引用数 5

ひとこと要約

この論文は、2段階のDPフレームワークを導入し、高品質な合成命令を生成し、それらの分布を民間リサンプリングヒストグラムを通じて実際の命令に一致させ、実データに近い実用性を達成しつつプライバシー保証を提供する。

ABSTRACT

Service providers of large language model (LLM) applications collect user instructions in the wild and use them in further aligning LLMs with users' intentions. These instructions, which potentially contain sensitive information, are annotated by human workers in the process. This poses a new privacy risk not addressed by the typical private optimization. To this end, we propose using synthetic instructions to replace real instructions in data annotation and model fine-tuning. Formal differential privacy is guaranteed by generating those synthetic instructions using privately fine-tuned generators. Crucial in achieving the desired utility is our novel filtering algorithm that matches the distribution of the synthetic instructions to that of the real ones. In both supervised fine-tuning and reinforcement learning from human feedback, our extensive experiments demonstrate the high utility of the final set of synthetic instructions by showing comparable results to real instructions. In supervised fine-tuning, models trained with private synthetic instructions outperform leading open-source models such as Vicuna.

研究の動機と目的

LLMの整合と記憶のためのユーザー指示の注釈付けにおけるプライバシーリスクを特定する。
プライベートに合成命令を生成・フィルタする2段階のフレームワークを提案する。
教師あり微調整とRLHFにおけるDP合成命令の有用性を示す。
プライバシーと有用性のトレードオフを定量化し、エンドツーエンドのDP保証を示す。

提案手法

プライベートな指示で公開事前学習済みLLMを微調整し、DP-Adamを用いてDP命令ジェネレータを作成する（アルゴリズム1）。
DP微調整済みジェネレータから大規模な初期合成命令セットを生成する。
埋め込み空間で合成命令をクラスタリングし、実指示クラスターのプライベートヒストグラムを構築する。
プライベートヒストグラムに合わせて合成命令をリサンプリングする（アルゴリズム2）。
両段階にわたるDP保証を組み合わせる；DP特性を保つための後処理を活用する。
監督付き微調整にはLLaMA（7B/13B）を、RLHFにはPh i-1.5を用いて評価し、MAUVEベースの分布整合とSPベースの評価を実施する。

実験結果

リサーチクエスチョン

RQ1DP微調整済みジェネレータは、指示遵守モデルにとって実指示と同程度の有用性を持つ合成指示を生み出せるか。
RQ2プライベートリサンプリングは合成指示と実指示の分布のギャップを効果的に埋められるか。
RQ3DP微調整とDPヒストグラムリサンプリングを組み合わせたときのプライバシー-有用性のトレードオフは何か。
RQ4DP合成指示は、実指示およびドメイン外データと比較して、教師あり微調整とRLHFでどのように性能を示すか。

主な発見

Model	Data	Win-rate
7B Model	FLAN (non-private)	50%
7B Model	Vicuna-v1.3	64.1% (±0.61)
7B Model	Chatbot Arena (non-private)	68.9% (±0.31)
7B Model	Chatbot Arena (ε=5.94)	60.7% (±0.42)
7B Model	Synthetic (ε=5.94, no filt.)	62.7% (±0.34)
7B Model	Synthetic (ε=5.98)	67.8% (±0.32)
7B Model	Synthetic (300K, ε=5.98)	68.1% (±0.37)
13B Model	Vicuna-v1.3	72.8% (±0.58)
13B Model	Synthetic (300K, ε=5.98)	74.5% (±0.41)

DP合成指示は高い有用性を達成し、リサンプリング済みDP合成データを使用した場合、未フィルタDPデータと比較して7B LLaMAモデルで相対的に8.6%の改善が得られた。
RLHFでは、プライベート合成指示で訓練したモデルは、プライバシー保証なしの実指示で訓練したモデルと同等の性能を示す。
微調整とリサンプリングのエンドツーエンドDPコストは（5.98、5×10^-7）DPであり、実用的なプライバシー保証を示す。
フィルタ後、初期100万から約31万の合成指示が残り、プライベートヒストグラムフィルタリングにより実データとの分布ギャップがMAUVEの改善で示された。
DP合成指示による教師あり微調整は、Vicuna-v1.3や非プライベートデータを含むベースラインに対して競争力のある勝率を示し、特にDPフィルタ済み合成データを使用する場合に顕著である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。