QUICK REVIEW
[论文解读] How to Fine-Tune BERT for Text Classification?
Chi Sun, Xipeng Qiu|arXiv (Cornell University)|May 14, 2019
Topic Modeling参考文献 39被引用 93
一句话总结
本论文进行了详尽的实验以分析并优化 BERT 的文本分类微调,提出一个通用的三步微调管线,并在八个数据集上展示了最先进的结果。
ABSTRACT
Language model pre-training has proven to be useful in learning universal language representations. As a state-of-the-art language model pre-training model, BERT (Bidirectional Encoder Representations from Transformers) has achieved amazing results in many language understanding tasks. In this paper, we conduct exhaustive experiments to investigate different fine-tuning methods of BERT on text classification task and provide a general solution for BERT fine-tuning. Finally, the proposed solution obtains new state-of-the-art results on eight widely-studied text classification datasets.
研究动机与目标
- 研究如何最大化 BERT 在文本分类上的性能。
- 提出一个由预训练、任务特定微调以及可选的多任务训练组成的通用微调解决方案。
- 研究长文本处理、层选择、学习率以及灾难性遗忘对微调的影响。
- 评估任务内和领域内预训练对多个数据集的影响。
提出的方法
- 三步通用微调管线:(1) 在任务相关数据或领域内数据上进一步对 BERT 进行预训练;(2) 如有相关任务可用,可选应用多任务学习;(3) 对目标任务进行微调。
- 尝试长文本预处理(截断与分层方法)以适应 512-token 的限制。
- 采用逐层学习率,其中较低层的更新量较小,以减缓灾难性遗忘。
- 探索任务内、领域内和跨领域的进一步预训练以提升性能。
- 在有多个数据集可用时,比较单任务微调与多任务微调。
实验结果
研究问题
- RQ1应如何微调 BERT 以在多样的数据集上最大化文本分类的性能?
- RQ2进一步的预训练(任务内、领域内、跨领域)是否会提升 BERT 的下游分类结果?
- RQ3有哪些有效策略可用于处理长文本、层选择以及逐层学习率,以避免灾难性遗忘?
- RQ4在实际应用中,多任务微调能否胜过单任务微调?
- RQ5在文本分类任务中,BERT-base 与经过任务特定预训练的 BERT-large 的表现如何比较?
主要发现
- BERT 的最后一层通常为文本分类提供最佳特征。
- 逐层降低的学习率有助于减缓灾难性遗忘并提高微调的稳定性。
- 任务内和领域内的进一步预训练在多个数据集上显著提升性能;跨领域预训练提供的额外增益有限。
- 多任务微调可以改善结果,但在已经使用大量任务特定预训练时其收益较小。
- BERT 在八个数据集上可达到最先进的结果;带有针对性预训练的任务特定更大模型优于若干基线。
- 少样本场景中,BERT 微调显著受益,进一步预训练在数据量极小时也带来显著增益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。