Skip to main content
QUICK REVIEW

[论文解读] A Survey on In-context Learning

Qingxiu Dong, Lei Li|arXiv (Cornell University)|Dec 31, 2022
Topic Modeling被引用 245
一句话总结

本文对上下文学习(ICL)进行综述,给出正式定义、训练与推理阶段、演示设计、评分函数、分析、评估及大型语言模型的未来方向。

ABSTRACT

With the increasing capabilities of large language models (LLMs), in-context learning (ICL) has emerged as a new paradigm for natural language processing (NLP), where LLMs make predictions based on contexts augmented with a few examples. It has been a significant trend to explore ICL to evaluate and extrapolate the ability of LLMs. In this paper, we aim to survey and summarize the progress and challenges of ICL. We first present a formal definition of ICL and clarify its correlation to related studies. Then, we organize and discuss advanced techniques, including training strategies, prompt designing strategies, and related analysis. Additionally, we explore various ICL application scenarios, such as data engineering and knowledge updating. Finally, we address the challenges of ICL and suggest potential directions for further research. We hope that our work can encourage more research on uncovering how ICL works and improving ICL.

研究动机与目标

  • 定义上下文学习并阐明其与相关研究的关系。
  • 总结能提升 ICL 的训练策略和预热方法。
  • 详细的演示设计策略(选择、排序、格式化)与评分函数。
  • 分析影响 ICL 性能的因素并提供理论见解。
  • 概述用于 ICL 研究的评估资源、基准和未来研究方向。

提出的方法

  • 基于预训练语言模型的 ICL 的形式定义与表述。
  • 对训练(预热)与推理(演示设计与评分)阶段的分类。
  • 对演示设计技术的调查,包括选择、排序和格式化。
  • 比较用于将模型输出转化为预测的评分函数(Direct、Perplexity、Channel)及其权衡。
  • 分析影响 ICL 性能的因素及新兴的理论解释。
  • 汇编用于 ICL 研究的评估基准与资源。

实验结果

研究问题

  • RQ1什么是上下文学习,以及它在对大型语言模型的正式定义?
  • RQ2在推理之前,哪些训练预热方法可以改进 ICL?
  • RQ3用于设计演示(选择、排序、格式化)的策略有哪些,它们如何影响性能?
  • RQ4哪些评分函数最适合将模型输出转化为 ICL 中的可靠预测?
  • RQ5哪些因素影响 ICL 的性能,以及当前分析揭示了 ICL 如何工作的理论洞见?

主要发现

  • ICL 依赖于通过演示进行类比学习而不进行参数更新。
  • 预热(有监督或自监督)可提升 ICL,但随着训练数据增多会出现停滞。
  • 演示设计(选择、排序和格式化)显著影响 ICL 的性能。
  • 存在三种主要的评分函数(Direct、Perplexity、Channel),在效率、覆盖率和稳定性方面存在权衡。
  • 演示多样性、与测试输入的相似性及输入-标签格式与 ICL 成功强相关。
  • 新基准(BIG-Bench、OPT-IML Bench)揭示对 ICL 的持续评估挑战。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。