Skip to main content
QUICK REVIEW

[论文解读] Verbosity Bias in Preference Labeling by Large Language Models

K. Saito, Akifumi Wachi|arXiv (Cornell University)|Oct 16, 2023
Natural Language Processing Techniques被引用 9
一句话总结

论文研究 LLM 评估中的冗长偏见,显示 GPT-4 倾向于更长的回答,且 LLM 与人类之间存在错位;并提出基于准确性等价性的度量来量化冗长偏见。

ABSTRACT

In recent years, Large Language Models (LLMs) have witnessed a remarkable surge in prevalence, altering the landscape of natural language processing and machine learning. One key factor in improving the performance of LLMs is alignment with humans achieved with Reinforcement Learning from Human Feedback (RLHF), as for many LLMs such as GPT-4, Bard, etc. In addition, recent studies are investigating the replacement of human feedback with feedback from other LLMs named Reinforcement Learning from AI Feedback (RLAIF). We examine the biases that come along with evaluating LLMs with other LLMs and take a closer look into verbosity bias -- a bias where LLMs sometimes prefer more verbose answers even if they have similar qualities. We see that in our problem setting, GPT-4 prefers longer answers more than humans. We also propose a metric to measure this bias.

研究动机与目标

  • 在用其他 LLM 评估时检验出现的偏见,聚焦冗长偏见。
  • 评估 GPT-4 相对于人类是否偏好更长的回答。
  • 开发基于准确性等价性的定量度量来衡量冗长偏见。
  • 使用现有的人类反馈数据集,将 LLM 的冗长偏好与人类偏好进行比较。

提出的方法

  • 进行实验,令 GPT-4 在长度不同的回答对之间进行选择,以评估冗长偏好。
  • 使用 HH-RLHF 数据集分析 GPT-4 的判断与人类反馈的对齐情况,进行对齐比较。
  • 在等机会与准确性等价性概念的基础上,提出冗长偏见的表述。
  • 定义一个带符号的冗长偏见度量,其中正值表示偏好冗长答案,负值表示偏好简短答案。
  • 给出数据中的 GPT-4 与 GPT-3.5 的冗长偏见值。
  • 使用基于距离的图来说明单词数差异如何与判断相关联。

实验结果

研究问题

  • RQ1在评估任务中,LLMs,尤其是 GPT-4,是否偏好更长的答案?
  • RQ2LLM 的冗长偏好与人类偏好之间是否存在差异?
  • RQ3是否可以基于准确性等价性度量来量化并跨模型比较冗长偏见?
  • RQ4在 RLAIF 风格的评估设置中,冗长偏见如何影响人类对齐?

主要发现

  • GPT-4 在创意写作提示中普遍倾向于更长的答案。
  • LLM 的冗长偏好与人类偏好之间存在可衡量的差异,差异取决于人类更偏好较长还是较短的回答。
  • 提出基于准确性等价性的度量来量化冗长偏见并比较模型。
  • GPT-4 在所提供的数据上获得 0.328 的冗长偏见值,GPT-3.5 为 0.428,表明仍存在偏见。
  • HH-RLHF 数据集中的人类也倾向于更长的答案,当人类偏好较短答案时,LLM 判断与人类的对齐度下降。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。