[论文解读] A Survey on LLM-as-a-Judge
这篇综述回顾如何将大语言模型(LLMs)构建为评估者,覆盖架构、提示策略、评估流程和可靠性基准。它还提出一个用于评估 LLM 作为评审 的新基准,并讨论应用与挑战。
Accurate and consistent evaluation is crucial for decision-making across numerous fields, yet it remains a challenging task due to inherent subjectivity, variability, and scale. Large Language Models (LLMs) have achieved remarkable success across diverse domains, leading to the emergence of "LLM-as-a-Judge," where LLMs are employed as evaluators for complex tasks. With their ability to process diverse data types and provide scalable, cost-effective, and consistent assessments, LLMs present a compelling alternative to traditional expert-driven evaluations. However, ensuring the reliability of LLM-as-a-Judge systems remains a significant challenge that requires careful design and standardization. This paper provides a comprehensive survey of LLM-as-a-Judge, addressing the core question: How can reliable LLM-as-a-Judge systems be built? We explore strategies to enhance reliability, including improving consistency, mitigating biases, and adapting to diverse assessment scenarios. Additionally, we propose methodologies for evaluating the reliability of LLM-as-a-Judge systems, supported by a novel benchmark designed for this purpose. To advance the development and real-world deployment of LLM-as-a-Judge systems, we also discussed practical applications, challenges, and future directions. This survey serves as a foundational reference for researchers and practitioners in this rapidly evolving field.
研究动机与目标
- 定义 LLM 作为评估者(LLM-as-Evaluator)概念并正式化评估工作流。
- 调查包含提示设计、模型能力和后处理在内的可靠性提升策略。
- 综述在模型、数据和代理人情境中的 LLM 作为评审 的评估管线。
- 提出一个新基准以评估 LLM 作为评审 系统的可靠性。
- 讨论实际部署中的应用、挑战与未来方向。
提出的方法
- 提供 LLM 作为评估者(LLM-as-Evaluator)的正式定义,并对评估方法进行分类(情境学习 In-Context Learning、模型选择、后处理、评估管线)。
- 详述提示策略(分数生成、是/否、成对比较、多项选择)以及输入/提示设计注意事项。
- 概述模型选择选项(通用大语言模型 vs 微调评估器;开源 vs 闭源)以及训练/评估的数据需求。
- 描述后处理技术(令牌提取、对数几率归一化、句子选择)以及不同用例的评估管线(用于模型、数据和代理的 LLM 作为评审)。
- 引入一个新颖的可靠性基准并讨论用于评估 LLM 作为评审 系统的数据集、指标及潜在偏差。

实验结果
研究问题
- RQ1哪些策略最能提升基于 LLM 的评估的一致性并降低偏差?
- RQ2如何在跨任务与模态的条件下评估并对 LLM 作为评审 的可靠性进行基准测试?
- RQ3哪些提示、模型选择和后处理步骤能给出最可靠的评估?
- RQ4应如何将 LLM 集成到数据与代理评估流水线中,以确保可扩展性和可重复性?
主要发现
- LLMs 可以有效地充当评估者,但可靠性需要对提示设计、模型选择与输出后处理进行精心设计。
- 成对比较在评估任务中往往比基于分数的方法更符合人类判断。
- 开源与微调评估器(如 PandaLM、JudgeLM、Prometheus)提供成本友好的替代方案,存在不同的局限性。
- 包括令牌提取与对数概率归一化在内的后处理对于稳定且易解释的评估至关重要。
- 提出一个用于评估 LLM 作为评审 可靠性的新基准,以系统地评估策略与偏差。
- 论文讨论了实际应用场景、挑战与未来研究方向。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。