[论文解读] OpenChat: Advancing Open-source Language Models with Mixed-Quality Data
OpenChat 引入 Conditioned-RLFT,通过在没有人类偏好标签的数据上对开源 LLM 进行微调,在 13B 开源模型中于多项基准测试实现最先进的结果。
Nowadays, open-source large language models like LLaMA have emerged. Recent developments have incorporated supervised fine-tuning (SFT) and reinforcement learning fine-tuning (RLFT) to align these models with human goals. However, SFT methods treat all training data with mixed quality equally, while RLFT methods require high-quality pairwise or ranking-based preference data. In this study, we present a novel framework, named OpenChat, to advance open-source language models with mixed-quality data. Specifically, we consider the general SFT training data, consisting of a small amount of expert data mixed with a large proportion of sub-optimal data, without any preference labels. We propose the C(onditioned)-RLFT, which regards different data sources as coarse-grained reward labels and learns a class-conditioned policy to leverage complementary data quality information. Interestingly, the optimal policy in C-RLFT can be easily solved through single-stage, RL-free supervised learning, which is lightweight and avoids costly human preference labeling. Through extensive experiments on three standard benchmarks, our openchat-13b fine-tuned with C-RLFT achieves the highest average performance among all 13b open-source language models. Moreover, we use AGIEval to validate the model generalization performance, in which only openchat-13b surpasses the base model. Finally, we conduct a series of analyses to shed light on the effectiveness and robustness of OpenChat. Our code, data, and models are publicly available at https://github.com/imoneoi/openchat and https://huggingface.co/openchat.
研究动机与目标
- 利用混合质量的 SFT 数据(专家 + 次优)来对开源 LLM 进行微调,而无需偏好标签。
- 开发一个轻量级的无 RL 训练目标,利用数据源的粗粒度奖励。
- 引入类别条件策略和参考策略,以在微调期间区分数据质量。
- 证明 OpenChat 结合 C-RLFT 在标准基准测试上具备优越的指令遵循性能。
提出的方法
- 将数据源标注为类别来定义类别条件的数据集(例如 GPT-4 与 GPT-3.5)。
- 提出 C-RLFT:将微调视为一个类别条件策略 πθ(y|x,c),对向类别条件参考策略 πc 施加 KL 正则化。
- 将最优策略推导为一个类别条件的奖励加权回归,并通过有监督学习实现(不需要 RL 循环)。
- 使用粗粒度奖励 rc(x,y),对专家数据赋值为 1,对次优数据赋值为 α(0<α<1),在目标函数中采用指数加权。
- 在 ShareGPT 数据上用 AdamW 对 openchat-13b(llama-2-13b 基础)训练 5 个 epoch,采用简单的奖励加权回归目标。
- 用反映数据源质量的类别条件提示进行推理,以生成高质量的回答。
实验结果
研究问题
- RQ1混合质量的 SFT 数据(专家 + 次优)是否可以在不需要昂贵的偏好数据的前提下,有效用于微调开源 LLM?
- RQ2类别条件策略加上粗粒度奖励信号是否能在指令遵循方面优于标准的 SFT 或 RLHF 方法?
- RQ3无 RL、奖励加权监督(C-RLFT)是否足以在标准基准测试上超越现有的开源模型?
- RQ4数据源质量(GPT-4 对比 GPT-3.5)如何影响微调模型的泛化性和鲁棒性?
主要发现
| 模型 | 基础模型 | 方法 | AlpacaEval | MT-bench | Vicuna-bench | 平均 |
|---|---|---|---|---|---|---|
| gpt-4 | - | SFT + RLFT | 95.3 | 82.5 | 90.0 | 89.3 |
| llama-2-70b | llama-2-70b | SFT + RLFT | 92.7 | 60.0 | 87.5 | 80.1 |
| claude | - | SFT + RLFT | 88.4 | 65.0 | 76.3 | 76.6 |
| gpt-3.5-turbo | - | SFT + RLFT | 86.1 | 50.0 | 50.0 | 62.0 |
| guanaco-65b | llama-65b | SFT | 71.8 | 40.6 | 49.4 | 53.9 |
| guanaco-33b | llama-33b | SFT | 66.0 | 40.6 | 54.4 | 53.7 |
| vicuna-v1.1-13b | llama-13b | SFT | 70.4 | 29.4 | 45.0 | 48.3 |
| wizardlm-v1.0-13b | llama-13b | SFT | 75.3 | 33.1 | 44.4 | 50.9 |
| vicuna-v1.5-13b | llama-2-13b | SFT | 78.8 | 37.2 | 47.1 | 54.4 |
| ultralm-13b | llama-13b | SFT | 80.6 | 37.2 | 50.0 | 55.9 |
| wizardlm-v1.2-13b | llama-2-13b | SFT | 89.2 | 53.1 | 80.6 | 74.3 |
| llama-2-chat-13b | llama-2-13b | SFT + RLFT | 81.1 | 55.3 | 86.9 | 74.4 |
| openchat-13b | llama-2-13b | C-RLFT | 89.5 | 57.5 | 85.0 | 77.3 |
- OpenChat 结合 C-RLFT 在 AlpacaEval、MT-bench 与 Vicuna-bench 的 13B 开源模型中实现了最高的平均胜率。
- OpenChat-13b 超越了许多更大模型,甚至在所有三个基准上都能优于 GPT-3.5-turbo。
- AGIEval 结果显示 OpenChat-13b 在 13B 开源模型中实现了最高的平均准确率,表明具备良好的泛化性。
- 消融研究表明去除粗粒度奖励或类别条件策略会降低性能,而仅 SFT 训练的分数更低。
- 可视化分析表明模型在表示中学会区分数据源质量,反映了 C-RLFT 的有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。