Skip to main content
QUICK REVIEW

[论文解读] The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters for Implicature Resolution by LLMs

Laura Ruis, Akbir Khan|arXiv (Cornell University)|Oct 26, 2022
Natural Language Processing Techniques被引用 21
一句话总结

本文评估微调策略如何影响大语言模型解决会话含义的能力,示例级指令微调在理解语用方面效果最佳,GPT-4 通过链式推理提示达到平均人类水平表现。

ABSTRACT

Despite widespread use of LLMs as conversational agents, evaluations of performance fail to capture a crucial aspect of communication: interpreting language in context -- incorporating its pragmatics. Humans interpret language using beliefs and prior knowledge about the world. For example, we intuitively understand the response "I wore gloves" to the question "Did you leave fingerprints?" as meaning "No". To investigate whether LLMs have the ability to make this type of inference, known as an implicature, we design a simple task and evaluate four categories of widely used state-of-the-art models. We find that, despite only evaluating on utterances that require a binary inference (yes or no), models in three of these categories perform close to random. However, LLMs instruction-tuned at the example-level perform significantly better. These results suggest that certain fine-tuning strategies are far better at inducing pragmatic understanding in models. We present our findings as the starting point for further research into evaluating how LLMs interpret language in context and to drive the development of more pragmatic and useful models of human discourse.

研究动机与目标

  • 将含义理解作为沟通中一个关键、尚未充分评估的方面来推动研究。
  • 设计一个包含健全评估协议的含义解决任务,包括人类和多种模型类别。
  • 评估零-shot和少样本在不同模型族中的表现。
  • 确定哪种微调策略最有助于在大语言模型中培养语用理解。

提出的方法

  • 使用自然对话含义数据集定义一个二元含义解决任务。
  • 在四组模型之间进行评估:基础预训练模型、对话微调模型、基准指令微调模型、以及示例级指令微调模型。
  • 使用零-shot和少样本(k=1,5)提示以及六个模板测试提示敏感性。
  • 应用上下文提示和链式推理提示以评估扩展规模与推理效果。
  • 将模型表现与人类标注进行比较(平均86.2%)。
  • 评估在不同模型规模和提示类型下改进是否仍然存在。

实验结果

研究问题

  • RQ1LLMs能否解决会话含义,且其表现与人类相比如何?
  • RQ2不同的微调策略(基础、对话FT、基准IT、示例IT)如何影响语用理解?
  • RQ3少样本学习和链式推理提示对含义解决有何影响?
  • RQ4在各自的微调类别中,模型规模如何影响含义解决?

主要发现

  • 示例级指令微调模型在含义解决方面持续优于所有其他模型组。
  • GPT-4 通过链式推理提示达到平均人类水平的表现(约86.5%),接近人类平均86.2%。
  • 基础模型和非示例级微调模型在大多数情况下基本接近随机(零-shot约60%,许多情况下接近50-60%)。
  • 扩展带来的好处在示例级指令微调模型上最为明显,一些基础模型显示出规模相关的增益,其他的趋于停滞。
  • 链式推理提示在若干模型上提升了性能,尤其是GPT-4,在此设置中达到接近人类水平。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。