[论文解读] SemScore: Automated Evaluation of Instruction-Tuned LLMs based on Semantic Textual Similarity
SemScore 通过衡量输出与 gold 目标的语义相似性来评估指令微调的 LLM 输出,在 12 个模型中,在 9 个度量中与人类判断的相关性最高。
Instruction-tuned Large Language Models (LLMs) have recently showcased remarkable advancements in their ability to generate fitting responses to natural language instructions. However, many current works rely on manual evaluation to judge the quality of generated responses. Since such manual evaluation is time-consuming, it does not easily scale to the evaluation of multiple models and model variants. In this short paper, we propose a straightforward but remarkably effective evaluation metric called SemScore, in which we directly compare model outputs to gold target responses using semantic textual similarity (STS). We conduct a comparative evaluation of the model outputs of 12 prominent instruction-tuned LLMs using 8 widely-used evaluation metrics for text generation. We find that our proposed SemScore metric outperforms all other, in many cases more complex, evaluation metrics in terms of correlation to human evaluation. These findings indicate the utility of our proposed metric for the evaluation of instruction-tuned LLMs.
研究动机与目标
- 推动对指令微调的 LLM 的可扩展、自动化评估,以取代耗时的人工判断。
- 评估传统 n-gram 指标在评估多样化指令执行任务方面的局限性。
- 提出一个简单、有效的基于语义相似度的度量(SemScore),并将其与现有指标在与人类排名的比较中进行比较。
- 提供 SemScore 在不同模型和任务上的鲁棒性洞见。
提出的方法
- 通过使用一个句子变换器(all-mpnet-base-v2)对模型输出和目标回答进行嵌入并取余弦相似度来计算 SemScore。
- 为 12 个模型(GPT-4、GPT-3.5-turbo、text-davinci 变体、LLaMA、Alpaca)在 252 条指令上收集人工评估。
- 评估 8 种基线文本生成指标(BLEU、ROUGE-L、BERTScore、BLEURT、BARTScore、BARTScore para、DiscoScore、G-Eval)以及 SemScore。
- 使用 Kendall’s tau 和 Pearson r 将自动指标分数与人工排名进行相关性分析。
- 消融研究:比较 SemScore 使用不同的池化策略(CLS vs mean-pooling)和替代 transformers 的效果。
实验结果
研究问题
- RQ1SemScore 与 8 种现有指标相比,与人类判断的相关性有多强?
- RQ2一个简单的基于嵌入的 STS 方法是否足以用于对多样化任务的指令微调 LLM 输出进行评估?
- RQ3底层 transformer 模型和池化策略对 SemScore 的性能有什么影响?
- RQ4在人工评估中,指令微调模型相对于非指令微调基线的排名如何?
主要发现
| 指标 | Kendall τ | Pearson r |
|---|---|---|
| SemScore | 0.879 | 0.970 |
| G-Eval-4 * | 0.855 | 0.863 |
| G-Eval-3.5 * | 0.855 | 0.831 |
| BERTScore | 0.848 | 0.944 |
| G-Eval-3.5-instruct | 0.840 | 0.911 |
| ROUGE-L | 0.788 | 0.933 |
| BARTScore | 0.788 | 0.621 |
| BARTScore para | 0.697 | 0.884 |
| BLEU | 0.667 | 0.865 |
| BLEURT | 0.485 | 0.485 |
| DiscoScore | 0.364 | 0.583 |
- SemScore 在所有测试指标中与人类判断的相关性最强(Kendall τ = 0.879, Pearson r = 0.970)。
- 在上述设定下,SemScore 的相关性优于像 G-Eval 这样的基于 LLM 的评估器。
- 在嵌入式指标中,SemScore 略强于 BERTScore(在所评估的数据集上)。
- 消融显示 SemScore 使用 all-mpnet-base-v2 和正常池化时表现最佳,相较于 DeBERTa 变体。
- G-Eval 和 BERTScore 也显示出较高的相关性,但在本研究中 SemScore 仍然是表现最佳者。
- 该方法保持简单、可重复,不需要对专有评估器的特殊访问。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。