[论文解读] PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization
PandaLM 引入一个隐私保护的评估模型(PandaLM-7B),用于评估和优化面向开源大型语言模型的指令微调超参数,聚焦主观质量维度,并在 API 基于评估和人工评估方面展示出与之竞争的性能。
Instruction tuning large language models (LLMs) remains a challenging task, owing to the complexity of hyperparameter selection and the difficulty involved in evaluating the tuned models. To determine the optimal hyperparameters, an automatic, robust, and reliable evaluation benchmark is essential. However, establishing such a benchmark is not a trivial task due to the challenges associated with evaluation accuracy and privacy protection. In response to these challenges, we introduce a judge large language model, named PandaLM, which is trained to distinguish the superior model given several LLMs. PandaLM's focus extends beyond just the objective correctness of responses, which is the main focus of traditional evaluation datasets. It addresses vital subjective factors such as relative conciseness, clarity, adherence to instructions, comprehensiveness, and formality. To ensure the reliability of PandaLM, we collect a diverse human-annotated test dataset, where all contexts are generated by humans and labels are aligned with human preferences. Our results indicate that PandaLM-7B achieves 93.75% of GPT-3.5's evaluation ability and 88.28% of GPT-4's in terms of F1-score on our test dataset. PandaLM enables the evaluation of LLM to be fairer but with less cost, evidenced by significant improvements achieved by models tuned through PandaLM compared to their counterparts trained with default Alpaca's hyperparameters. In addition, PandaLM does not depend on API-based evaluations, thus avoiding potential data leakage. All resources of PandaLM are released at https://github.com/WeOpenML/PandaLM.
研究动机与目标
- 动员/阐明需要自动化、可靠的评估,以优化 LLM 的指令微调超参数。
- 提出 PandaLM 作为评估回答的评审型 LLM,评估响应的主观和客观方面。
- 创建一个与人类偏好对齐的测试数据集,以验证 PandaLM 的可靠性和相关性。
- 证明 PandaLM 选择的超参数相对于 Alpaca 基准在性能上有显著提升。
提出的方法
- 在 30 万个由 Alpaca-52K 风格输入和来自多种开源 LLM 的响应组成、并具有一致微调数据的 GPT-3.5 生成评估元组上训练 PandaLM-7B(基于 LLaMA-7B)。
- 将评估结果、推理过程和一份参考回答整合为 PandaLM 的输出。
- 通过自我指令蒸馏数据,并应用启发式筛选以减轻噪声和输入顺序偏差。
- 构建一个人工标注的测试集(1k 条样本),具有高跨评注者一致性,用以将 PandaLM 与人工和 API 模型进行基准对比。
- 使用双推理方法(互换顺序的回答)对 PandaLM 与 GPT-3.5、GPT-4 及人工进行评估,以提高鲁棒性。

实验结果
研究问题
- RQ1是否可以有一个专门的评审型 LLM 在主观与客观标准上可靠地评估并区分指令微调后的 LLM?
- RQ2在多样化测试集上,PandaLM-7B 的评估性能与 GPT-3.5、GPT-4 及人工判断的接近程度如何?
- RQ3PandaLM 选择的超参数是否在多种基模型上相比 Alpaca 基准更能提升开源 LLM?
- RQ4PandaLM 是否能够实现隐私保护、成本效益高的评估,而不依赖基于 API 的评估?
主要发现
- PandaLM-7B 在多样化的人类标注测试集上的评估能力达到 GPT-3.5 的 93.75%,以及 GPT-4 的 88.28%(以 F1 计)。
- 在多种基模型上,使用 PandaLM 选择的超参数微调的模型在人工和基于 GPT 的评估中优于 Alpaca 微调的对手。
- PandaLM 实现自动化、私密评估而不泄露 API 数据,提供开源访问与可重复性。
- 一个结构化的调优流程(每个模型 80 种配置,四个区块,跨区块对比鲁棒)能够识别随基模型变化的有效超参数。
- 在下游 lm-eval 任务上,PandaLM 微调的模型在若干基准测试中相对于 Alpaca 微调的模型表现出持续改进。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。