Skip to main content
QUICK REVIEW

[论文解读] Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?

Sewon Min, Xinxi Lyu|arXiv (Cornell University)|Feb 25, 2022
Topic Modeling被引用 36
一句话总结

在-context学习中,论文表明演示中的真实输入-标签映射并非严格必要;相反,标签空间、输入分布以及演示的格式驱动大部分增益,而元训练放大这些效应。

ABSTRACT

Large language models (LMs) are able to in-context learn -- perform a new task via inference alone by conditioning on a few input-label pairs (demonstrations) and making predictions for new inputs. However, there has been little understanding of how the model learns and which aspects of the demonstrations contribute to end task performance. In this paper, we show that ground truth demonstrations are in fact not required -- randomly replacing labels in the demonstrations barely hurts performance on a range of classification and multi-choce tasks, consistently over 12 different models including GPT-3. Instead, we find that other aspects of the demonstrations are the key drivers of end task performance, including the fact that they provide a few examples of (1) the label space, (2) the distribution of the input text, and (3) the overall format of the sequence. Together, our analysis provides a new way of understanding how and why in-context learning works, while opening up new questions about how much can be learned from large language models through inference alone.

研究动机与目标

  • 研究在大型语言模型中,上下文学习(ICL)为何优于零-shot。
  • 评估演示中真实输入-标签映射的重要性。
  • 确定演示的哪些方面(标签空间、输入分布、格式)对ICL性能有贡献。
  • 检验以上下文学习目标进行元训练如何改变对演示组件的依赖。

提出的方法

  • 在分类和多项选择任务上评估12种语言模型,使用带有真实标签、随机标签或无演示的演示。
  • 系统性地消融演示组件,包括输入分布、标签空间和格式。
  • 比较直接提示和通道提示方法以解析不同的条件信号。
  • 利用26个数据集来评估跨任务和领域的鲁棒性。
  • 默认采用k=16个演示示例,并测试不同的k和模板。

实验结果

研究问题

  • RQ1演示中的真实输入-标签映射是否会对ICL性能产生关键性影响?
  • RQ2演示的哪些方面(输入分布、标签空间、格式)对ICL成功影响最大?
  • RQ3以上下文学习目标进行元训练如何改变对演示组件的敏感性?
  • RQ4在使用替代演示信号(如随机标签、OOD输入)时,模型在多大程度上能保留ICL增益?

主要发现

  • 在演示中用随机标签替代真实标签几乎不会降低大多数模型和任务的性能。
  • 标签空间和输入文本的分布是影响ICL性能的关键因素,即使标签不正确。
  • 保持演示的整体格式至关重要,使用随机英文单词作为标签甚至可能优于没有标签。
  • 以上下文学习目标进行元训练会放大对演示中更简易方面(如格式)而非输入-标签映射的依赖。
  • 通过将未带标签的输入与随机标签配对,模型可以在几乎无标签数据的情况下达到接近k-shot的性能,凸显强大的零-shot潜力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。