QUICK REVIEW

[论文解读] How to Fine-Tune BERT for Text Classification?

Chi Sun, Xipeng Qiu|arXiv (Cornell University)|May 14, 2019

Topic Modeling参考文献 39被引用 93

一句话总结

本论文进行了详尽的实验以分析并优化 BERT 的文本分类微调，提出一个通用的三步微调管线，并在八个数据集上展示了最先进的结果。

ABSTRACT

Language model pre-training has proven to be useful in learning universal language representations. As a state-of-the-art language model pre-training model, BERT (Bidirectional Encoder Representations from Transformers) has achieved amazing results in many language understanding tasks. In this paper, we conduct exhaustive experiments to investigate different fine-tuning methods of BERT on text classification task and provide a general solution for BERT fine-tuning. Finally, the proposed solution obtains new state-of-the-art results on eight widely-studied text classification datasets.

研究动机与目标

研究如何最大化 BERT 在文本分类上的性能。
提出一个由预训练、任务特定微调以及可选的多任务训练组成的通用微调解决方案。
研究长文本处理、层选择、学习率以及灾难性遗忘对微调的影响。
评估任务内和领域内预训练对多个数据集的影响。

提出的方法

三步通用微调管线：(1) 在任务相关数据或领域内数据上进一步对 BERT 进行预训练；(2) 如有相关任务可用，可选应用多任务学习；(3) 对目标任务进行微调。
尝试长文本预处理（截断与分层方法）以适应 512-token 的限制。
采用逐层学习率，其中较低层的更新量较小，以减缓灾难性遗忘。
探索任务内、领域内和跨领域的进一步预训练以提升性能。
在有多个数据集可用时，比较单任务微调与多任务微调。

实验结果

研究问题

RQ1应如何微调 BERT 以在多样的数据集上最大化文本分类的性能？
RQ2进一步的预训练（任务内、领域内、跨领域）是否会提升 BERT 的下游分类结果？
RQ3有哪些有效策略可用于处理长文本、层选择以及逐层学习率，以避免灾难性遗忘？
RQ4在实际应用中，多任务微调能否胜过单任务微调？
RQ5在文本分类任务中，BERT-base 与经过任务特定预训练的 BERT-large 的表现如何比较？

主要发现

BERT 的最后一层通常为文本分类提供最佳特征。
逐层降低的学习率有助于减缓灾难性遗忘并提高微调的稳定性。
任务内和领域内的进一步预训练在多个数据集上显著提升性能；跨领域预训练提供的额外增益有限。
多任务微调可以改善结果，但在已经使用大量任务特定预训练时其收益较小。
BERT 在八个数据集上可达到最先进的结果；带有针对性预训练的任务特定更大模型优于若干基线。
少样本场景中，BERT 微调显著受益，进一步预训练在数据量极小时也带来显著增益。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。