[论文解读] Zephyr: Direct Distillation of LM Alignment
Zephyr-7B 通过蒸馏的监督微调(dSFT)和蒸馏直接偏好优化(dDPO)从 AI 反馈中对小型开源语言模型进行对齐,达到 7B 规模聊天的最新性能,并在没有人工标注的情况下与更大模型竞争。
We aim to produce a smaller language model that is aligned to user intent. Previous research has shown that applying distilled supervised fine-tuning (dSFT) on larger models significantly improves task accuracy; however, these models are unaligned, i.e. they do not respond well to natural prompts. To distill this property, we experiment with the use of preference data from AI Feedback (AIF). Starting from a dataset of outputs ranked by a teacher model, we apply distilled direct preference optimization (dDPO) to learn a chat model with significantly improved intent alignment. The approach requires only a few hours of training without any additional sampling during fine-tuning. The final result, Zephyr-7B, sets the state-of-the-art on chat benchmarks for 7B parameter models, and requires no human annotation. In particular, results on MT-Bench show that Zephyr-7B surpasses Llama2-Chat-70B, the best open-access RLHF-based model. Code, models, data, and tutorials for the system are available at https://github.com/huggingface/alignment-handbook.
研究动机与目标
- 旨在产出一个更小的语言模型,使其对用户意图进行对齐。
- 展示来自更大教师模型的蒸馏加上 AI 生成的偏好能够实现高水平的对齐。
- 证明在 7B 基础上应用 dDPO 能在关键基准上达到或超过 70B 参数的聊天模型。
- 提供开放数据集、代码和可复现的对齐训练方案,无需人工标注。
提出的方法
- 从自我指令风格数据(UltraChat)构建数据并在 7B 基础上应用蒸馏 SFT(dSFT)。
- 使用教师完成和 GPT-4 评分的集成来产生偏好数据,收集 AI 反馈(AIF)并生成 UltraFeedback。
- 应用蒸馏直接偏好优化(dDPO),使用源自当前策略和参考策略的奖励模型。
- 在 16 个 A100、80GB 内存的服务器上训练,使用 TRL、DeepSpeed ZeRO-3 和 FlashAttention-2。
- 从单轮 dSFT 的模型初始化 Zephyr-7B,并用三轮 DPO 进行微调。
实验结果
研究问题
- RQ1是否可以通过蒸馏在不依赖人工标注的情况下将一个小型开源语言模型对齐到用户意图?
- RQ2在 AI 生成偏好上进行的 dDPO 是否能够实现与更大、经过人工对齐的模型相竞争的对齐效果?
- RQ3将 dSFT 与 dDPO 结合对于 7B 模型在标准聊天基准上的影响是什么?
- RQ4Zephyr-7B 如何在 MT-Bench、AlpacaEval 和 Open LLM Leaderboard 任务上与开源和专有模型相比?
主要发现
- Zephyr-7B 在 MT-Bench 的开源 7B 聊天模型中实现了新的 state-of-the-art(7.34),并在 AlpacaEval 上超过了许多开源/对比模型,胜率为 90.60 1.03。
- 与较大的开源模型相比,Zephyr-7B 在 MT-Bench 上与 Llama2-Chat-70B 具有竞争力,在 AlpacaEval 上落在两倍标准差之内。
- dDPO 相较于仅有 dSFT 在聊天能力上有显著提升,消融研究显示 dDPO+ dSFT 在 MT-Bench 与 AlpacaEval 上提供最佳总体表现。
- 在初始 dSFT 后进行一轮 DPO 是有益的;在较长的初始 SFT 之后延长 DPO 可能会降低下游表现,表明对齐阶段的调度需谨慎。
- Zephyr-7B 在某些基准上缩小了与专有模型的差距,在 MT-Bench 上甚至可以超越 Llama2-Chat-70B,同时保持开源。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。