Skip to main content
QUICK REVIEW

[论文解读] Fine-tuned Language Models for Text Classification.

Jeremy Howard, Sebastian Ruder|arXiv (Cornell University)|Jan 18, 2018
Multimodal Machine Learning Applications参考文献 48被引用 342
一句话总结

本文提出了一种微调语言模型(FitLaM)的迁移学习方法,通过有效的微调技术将最先进的语言模型适配到文本分类任务中。该方法在五个文本分类基准上实现了18-24%的错误率降低,优于先前的方法,并已公开发布模型和代码以供社区使用。

ABSTRACT

Transfer learning has revolutionized computer vision, but existing approaches in NLP still require task-specific modifications and training from scratch. We propose Fine-tuned Language Models (FitLaM), an effective transfer learning method that can be applied to any task in NLP, and introduce techniques that are key for fine-tuning a state-of-the-art language model. Our method significantly outperforms the state-of-the-art on five text classification tasks, reducing the error by 18-24% on the majority of datasets. We open-source our pretrained models and code to enable adoption by the community.

研究动机与目标

  • 开发一种适用于自然语言处理的通用迁移学习方法,以消除从零开始进行任务特定训练的需求。
  • 识别并应用能提升文本分类任务微调性能的关键技术。
  • 在多个文本分类基准上显著超越现有最先进方法。
  • 公开预训练语言模型和代码,以加速自然语言处理社区的采用与可复现性。

提出的方法

  • 该方法通过在下游文本分类任务上微调预训练语言模型来应用迁移学习。
  • 它引入了针对提升分类任务微调稳定性和性能而量身定制的具体技术。
  • 该方法被设计为可广泛应用于各种自然语言处理文本分类任务。
  • 模型通过标准优化过程在标注数据集上进行端到端微调。
  • 该方法利用预训练语言模型的上下文表示,以提高下游分类的准确性。
  • 该框架已实现并公开发布,提供代码和预训练模型供公众使用。

实验结果

研究问题

  • RQ1在文本分类任务上,对最先进的语言模型进行微调时,哪些技术最为有效?
  • RQ2统一的微调方法是否能在文本分类中超越特定任务的训练设置?
  • RQ3在多样化的文本分类基准上,对现有预训练语言模型应用微调能实现多大程度的错误率降低?
  • RQ4所提出的方法在不同文本分类数据集上的泛化能力如何?

主要发现

  • FitLaM 方法在所评估的五个文本分类数据集中的大多数上,将分类错误率降低了18-24%。
  • 该方法在所有五个基准数据集上均持续优于最先进方法。
  • 微调技术实现了对预训练语言模型的有效适配,且无需进行任务特定的架构修改。
  • 模型和代码的开源促进了更广泛社区的采用与可复现性。
  • 该方法在多样化文本分类任务中表现出强大的泛化能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。