[论文解读] Privacy-Preserving Instructions for Aligning Large Language Models
本文提出一个两阶段 DP 框架,通过私有重采样直方图使生成的高质量合成指令的分布与真实指令相匹配,在提供隐私保障的同时,获得接近真实指令的效用。
Service providers of large language model (LLM) applications collect user instructions in the wild and use them in further aligning LLMs with users' intentions. These instructions, which potentially contain sensitive information, are annotated by human workers in the process. This poses a new privacy risk not addressed by the typical private optimization. To this end, we propose using synthetic instructions to replace real instructions in data annotation and model fine-tuning. Formal differential privacy is guaranteed by generating those synthetic instructions using privately fine-tuned generators. Crucial in achieving the desired utility is our novel filtering algorithm that matches the distribution of the synthetic instructions to that of the real ones. In both supervised fine-tuning and reinforcement learning from human feedback, our extensive experiments demonstrate the high utility of the final set of synthetic instructions by showing comparable results to real instructions. In supervised fine-tuning, models trained with private synthetic instructions outperform leading open-source models such as Vicuna.
研究动机与目标
- 识别在为 LLM 对齐与记忆化标注用户指令时的隐私风险。
- 提出一个两阶段框架,私有地产生并筛选合成指令。
- 展示 DP 合成指令在监督微调和 RLHF 中的效用。
- 量化隐私-效用权衡与端到端 DP 保证。
提出的方法
- 在私有指令上使用 DP-Adam 对公开预训练的 LLM 进行微调,以创建一个 DP 指令生成器(Algorithm 1)。
- 从 DP 微调的生成器生成大量初始合成指令集。
- 在嵌入空间对合成指令进行聚类,并对真实指令簇构建一个私有直方图。
- 对合成指令进行重采样以匹配私有直方图(Algorithm 2)。
- 在两个阶段之间组合 DP 保证;利用后处理来保持 DP 特性。
- 使用 LLaMA(7B/13B)进行监督微调和 Phi-1.5 进行 RLHF,并采用 MAUVE 基于分布匹配的评估和 SP 基于评估。
实验结果
研究问题
- RQ1 DP 微调的生成器是否能生成在指令执行方面具有与真实指令相当效用的合成指令?
- RQ2私有重采样是否能有效弥合合成指令与真实指令之间的分布差距?
- RQ3将 DP 微调与 DP 直方图重采样相结合时,会产生哪些隐私-效用权衡?
- RQ4在监督微调和 RLHF 中,DP 合成指令相对于真实指令和域外数据的表现如何?
主要发现
| 模型 | 数据 | 胜率 |
|---|---|---|
| 7B Model | FLAN (non-private) | 50% |
| 7B Model | Vicuna-v1.3 | 64.1% (±0.61) |
| 7B Model | Chatbot Arena (non-private) | 68.9% (±0.31) |
| 7B Model | Chatbot Arena (ε=5.94) | 60.7% (±0.42) |
| 7B Model | Synthetic (ε=5.94, no filt.) | 62.7% (±0.34) |
| 7B Model | Synthetic (ε=5.98) | 67.8% (±0.32) |
| 7B Model | Synthetic (300K, ε=5.98) | 68.1% (±0.37) |
| 13B Model | Vicuna-v1.3 | 72.8% (±0.58) |
| 13B Model | Synthetic (300K, ε=5.98) | 74.5% (±0.41) |
- DP 合成指令具有很高的效用,当使用重采样的 DP 合成数据相比未筛选的 DP 合成数据,在 7B LLaMA 模型上实现了 8.6% 的相对提升。
- 在 RLHF 中,使用私有合成指令训练的模型在与未提供隐私保障的真实指令训练的模型相比具有可比的表现。
- 端到端的微调与重采样的 DP 成本为(5.98, 5×10^-7) DP,展示了实际的隐私保证。
- 筛选后大约剩下 31 万条合成指令(初始为 100 万条),私有直方图筛选将分布差距对真实数据的改进(如 MAUVE 提示)降低。
- 使用 DP 合成指令进行监督微调在与基线(包括 Vicuna-v1.3 和非私有数据)对比中取得具有竞争力的胜率,尤其是在使用 DP 筛选的合成数据时。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。