Skip to main content
QUICK REVIEW

[论文解读] Improving Few-shot Text Classification via Pretrained Language Representations.

Ningyu Zhang, Zhanlin Sun|arXiv (Cornell University)|Aug 22, 2019
Natural Language Processing Techniques被引用 5
一句话总结

本文提出了一种结合元学习与预训练语言模型的 few-shot 文本分类方法,以提升在有限样本下的泛化能力。通过利用鲁棒的模型初始化和有效的适应策略,该方法在基准情感分类数据集上取得了最先进性能,证明了预训练在 few-shot NLP 任务中的有效性。

ABSTRACT

Text classification tends to be difficult when data are deficient or when it is required to adapt to unseen classes. In such challenging scenarios, recent studies have often used meta-learning to simulate the few-shot task, thus negating implicit common linguistic features across tasks. This paper addresses such problems using meta-learning and unsupervised language models. Our approach is based on the insight that having a good generalization from a few examples relies on both a generic model initialization and an effective strategy for adapting this model to newly arising tasks. We show that our approach is not only simple but also produces a state-of-the-art performance on a well-studied sentiment classification dataset. It can thus be further suggested that pretraining could be a promising solution for few-shot learning of many other NLP tasks. The code and the dataset to replicate the experiments are made available at this https URL.

研究动机与目标

  • 解决标注数据稀缺或新类别意外出现的 few-shot 文本分类挑战。
  • 克服现有元学习方法在捕捉跨任务隐式语言共性方面的局限性。
  • 利用预训练语言模型的归纳偏置,提升低资源设置下的模型泛化能力。
  • 开发一种简单而有效的方法,将元学习与预训练相结合,以实现更好的 few-shot 适应能力。
  • 证明该方法在其他需要 few-shot 学习的 NLP 任务中的广泛适用性。

提出的方法

  • 利用预训练语言模型作为 few-shot 分类的强初始表征。
  • 应用元学习在训练期间模拟 few-shot 学习场景,以实现对新任务的快速适应。
  • 通过 episodic 训练,使模型仅使用少量标注样本即可快速适应新类别。
  • 结合预训练的归纳偏置与元学习的 few-shot 泛化能力。
  • 在 few-shot episodes 上端到端微调模型,以优化快速适应性能。
  • 在预训练编码器之上使用标准分类头,从少量样本中预测标签。

实验结果

研究问题

  • RQ1将预训练语言模型与元学习结合是否能提升 few-shot 文本分类性能?
  • RQ2在低资源设置下,预训练的使用是否能减少对任务特定元学习适应的需求?
  • RQ3所提出方法与现有元学习和仅预训练基线在 few-shot 文本分类上的表现如何比较?
  • RQ4该模型在仅用少量样本的情况下,对未见类别的泛化能力达到何种程度?
  • RQ5该方法能否扩展到其他需要 few-shot 学习的 NLP 任务?

主要发现

  • 所提方法在 well-studied 情感分类数据集的 few-shot 设置下实现了最先进性能。
  • 与标准元学习基线相比,预训练语言表征的整合显著提升了 few-shot 泛化能力。
  • 由于预训练提供的强归纳偏置,模型在 zero-shot 和 few-shot 转移学习中表现出色。
  • 该方法简单而有效,除标准微调外仅需极少的架构修改。
  • 结果表明,预训练可作为多种 NLP 任务中 few-shot 学习的强大基础。
  • 代码与数据集已公开发布,支持可复现性与进一步研究。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。