Skip to main content
QUICK REVIEW

[论文解读] Selective Annotation Makes Language Models Better Few-Shot Learners

Hongjin Su, Jungo Kasai|arXiv (Cornell University)|Sep 5, 2022
Topic Modeling被引用 62
一句话总结

论文提出一个两步框架——选择性标注和提示检索——使用基于图的 vote-k 方法,在测试前从未标记样本中选择一个小的、多样化的集合进行标注,从而在 10 个数据集上提升上下文学习性能,同时显著降低标注成本,并在微调性能上具有竞争力。

ABSTRACT

Many recent approaches to natural language tasks are built on the remarkable abilities of large language models. Large language models can perform in-context learning, where they learn a new task from a few task demonstrations, without any parameter updates. This work examines the implications of in-context learning for the creation of datasets for new natural language tasks. Departing from recent in-context learning methods, we formulate an annotation-efficient, two-step framework: selective annotation that chooses a pool of examples to annotate from unlabeled data in advance, followed by prompt retrieval that retrieves task examples from the annotated pool at test time. Based on this framework, we propose an unsupervised, graph-based selective annotation method, voke-k, to select diverse, representative examples to annotate. Extensive experiments on 10 datasets (covering classification, commonsense reasoning, dialogue, and text/code generation) demonstrate that our selective annotation method improves the task performance by a large margin. On average, vote-k achieves a 12.9%/11.4% relative gain under an annotation budget of 18/100, as compared to randomly selecting examples to annotate. Compared to state-of-the-art supervised finetuning approaches, it yields similar performance with 10-100x less annotation cost across 10 tasks. We further analyze the effectiveness of our framework in various scenarios: language models with varying sizes, alternative selective annotation methods, and cases where there is a test data domain shift. We hope that our studies will serve as a basis for data annotations as large language models are increasingly applied to new tasks. Our code is available at https://github.com/HKUNLP/icl-selective-annotation.

研究动机与目标

  • 在保持高水平上下文学习性能的同时,降低新 NLP 任务的人工标注成本。
  • 研究如何在测试时间之前选择一个小型、多样且具有代表性的标注池。
  • 评估选择性标注和提示检索在不同任务和模型规模上的影响。
  • 分析对领域变换的鲁棒性并在标注有限的情况下与微调进行比较。

提出的方法

  • 提出一个两步框架:对一个小的未标注样本池进行选择性标注,然后在测试时从已标注池中进行提示检索。
  • 引入 vote-k,一种无监督的基于图的选择性标注方法,通过在 Sentence-BERT 空间构建 k-NN 图并以衰减相似度分数迭代选择带标注的示例来促进多样性和代表性。
  • 通过使用 Sentence-BERT 表征的余弦相似度,检索与每个测试实例最相似的带标注示例来计算上下文提示。
  • 在涵盖分类、常识推理、对话,以及文本/代码生成的 10 个数据集上进行评估,模型参数规模从 2B 到 175B。
  • 与随机标注、其他选择性方法以及微调进行比较,以评估标注效率和鲁棒性。

实验结果

研究问题

  • RQ1选择性标注是否能够降低在多样化 NLP 任务中实现有效上下文学习所需的标注成本?
  • RQ2vote-k 方法如何在多样性和代表性之间取得平衡以提升提示检索性能?
  • RQ3在语言模型规模和领域转变下,带提示检索的选择性标注是否仍然有效?
  • RQ4在有限标注预算下,带选择性标注的上下文学习与有监督微调相比如何?
  • RQ5使用基于相似度的提示检索与随机检索对性能的影响有多大?

主要发现

  • vote-k 选择性标注在 10 个任务上明显优于随机标注,在预算 18 时相对提升 12.9%,在预算 100 时提升 11.4%。
  • 在若干任务上,18 个带标注的样本就能达到或超过使用 100 个随机选择的标注的性能;总体而言,vote-k 在模型规模(2B–175B)上显示出鲁棒的提升。
  • vote-k 结合基于相似度的提示检索,在 10 个任务上达到或超过最先进微调的性能,同时标注成本比之低 10–100×。
  • 选择性标注降低方差并提升上下文学习的稳定性,尤其在未标记数据的随机性和领域转变下。
  • 在使用随机提示检索时,vote-k 收益有限,凸显了基于相似度的检索在利用标注数据中的重要性。
  • 相比常规微调,使用 vote-k 的上下文学习通常需要更少的带标签示例即可达到可比的性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。