[论文解读] ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning
ROSCOE 引入一套细粒度、无监督评估度量,用以评估大语言模型输出的逐步推理质量,聚焦语义对齐、语义相似、逻辑推理和语言连贯性。它在不同推理数据集上展示出比基线更强的鲁棒性与与人类判断的一致性。
Large language models show improved downstream task performance when prompted to generate step-by-step reasoning to justify their final answers. These reasoning steps greatly improve model interpretability and verification, but objectively studying their correctness (independent of the final answer) is difficult without reliable methods for automatic evaluation. We simply do not know how often the stated reasoning steps actually support the final end task predictions. In this work, we present ROSCOE, a suite of interpretable, unsupervised automatic scores that improve and extend previous text generation evaluation metrics. To evaluate ROSCOE against baseline metrics, we design a typology of reasoning errors and collect synthetic and human evaluation scores on commonly used reasoning datasets. In contrast with existing metrics, ROSCOE can measure semantic consistency, logicality, informativeness, fluency, and factuality - among other traits - by leveraging properties of step-by-step rationales. We empirically verify the strength of our metrics on five human annotated and six programmatically perturbed diagnostics datasets - covering a diverse set of tasks that require reasoning skills and show that ROSCOE can consistently outperform baseline metrics.
研究动机与目标
- 推动对 LLMs 的逐步推理进行自动化、细粒度评估的需求。
- 提出一个九种推理错误类型的分类法,以指导度量设计与标注。
- 将 ROSCOE 发展为一个多视角评分套件(语义对齐、语义相似、逻辑推理、语言连贯性)。
- 在诊断数据集与人工评估数据集上对比基线,评估 ROSCOE 的鲁棒性与可解释性,以证明其稳健性与可解释性。
提出的方法
- 定义一个四视角评分框架:语义对齐、语义相似性、逻辑推理和语言连贯性。
- 构建九种推理错误类型的分类法,并通过合成扰动和人工标注来创建诊断。
- 在 ROSCOE 内开发 18 个细粒度、无监督度量(得分在 [0,1]),包括步/链级变体以及无参考和有参考两种选项。
- 在多步推理数据上对基于 SimCSE 的句子嵌入进行微调,以计算用于对齐和相似性度量的步骤和链表示。
- 使用 Somers’ D 与合成和人工判断的相关性,评估 ROSCOE 相对于基线(ROUGE、BLEURT、BERTScore、BARTScore、CTC 变体等)的表现。
- 通过受控扰动和大量数据集分析,展示鲁棒性与可解释性。
实验结果
研究问题
- RQ1一个细粒度、无监督的度量套件是否能够可靠评估 LLM 输出的逐步推理的正确性和质量?
- RQ2在反映语义对齐、事实性和逻辑连贯性方面,提出的 ROSCOE 度量在多样化推理任务中是否优于基线?
- RQ3推理步骤中的扰动(如缺失步骤、算术错误、幻觉)如何影响度量分数及其与人类判断的相关性?
- RQ4在推理数据上微调嵌入是否提升 ROSCOE 在跨数据集检测推理错误的能力?
主要发现
- 在六个诊断数据集的无参考设置中,ROSCOE 始终优于基线度量。
- ROSCOE-SS(语义相似性)在若干任务上带来明显提升,表明其在检测幻觉和重复方面的有效性。
- ROSCOE 在多个数据集和错误类型中与人工判断的相关性较强,特别是在语义对齐和推理一致性方面。
- 在多步推理数据上对基于 SimCSE 的嵌入进行微调,提升跨数据集的平均度量相关性。
- Metrics demonstrate robustness to tasks requiring logical and arithmetic reasoning, compared to baselines.
- 分析揭示在将 ROSCOE 用于分类任务时需要对数据集特定阈值进行校准。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。