QUICK REVIEW

[论文解读] Evaluating Language Model Finetuning Techniques for Low-resource Languages

Jan Christian Blaise Cruz, Charibeth Cheng|arXiv (Cornell University)|Jun 30, 2019

Natural Language Processing Techniques参考文献 13被引用 32

一句话总结

本文提出 WikiText-TL-39 用于菲律宾语，并比较 BERT 与 ULMFiT 的微调在低资源情感分类上的表现，显示在有限数据下具有鲁棒性。

ABSTRACT

Unlike mainstream languages (such as English and French), low-resource languages often suffer from a lack of expert-annotated corpora and benchmark resources that make it hard to apply state-of-the-art techniques directly. In this paper, we alleviate this scarcity problem for the low-resourced Filipino language in two ways. First, we introduce a new benchmark language modeling dataset in Filipino which we call WikiText-TL-39. Second, we show that language model finetuning techniques such as BERT and ULMFiT can be used to consistently train robust classifiers in low-resource settings, experiencing at most a 0.0782 increase in validation error when the number of training examples is decreased from 10K to 1K while finetuning using a privately-held sentiment dataset.

研究动机与目标

通过创建一个大规模的菲律宾语文本基准数据集（WikiText-TL-39）来解决低资源语言的数据稀缺问题。
评估迁移学习技术（BERT 和 ULMFiT）在有限标注数据下的下游分类表现。
量化训练数据减少对验证性能的影响，以确立微调方法的鲁棒性。

提出的方法

在菲律宾语语料上预训练 BERT Base 模型，使用两种词汇表（290k 与 30k）和两种大小写设置（cased 和 uncased）。
在同一菲律宾语语料上预训练 AWD-LSTM 语言模型（ULMFiT），并使用指定的超参数。
在一个私有情感数据集上微调两种模型，训练数据按 10K-10K、5K-5K、1K-1K、和 100-100 拆分。
在固定的验证集上评估微调后的模型，以衡量各拆分下的验证损失和准确率。
比较 BERT 与 ULMFiT 在数据减少的鲁棒性及计算/资源权衡方面的表现。

实验结果

研究问题

RQ1在不同数量的标注数据下，BERT 和 ULMFiT 的微调在菲律宾语情感分类中的表现如何？
RQ2将训练数据从 10K-10K 减少到更小的拆分时，对验证性能有何影响？
RQ3在数据稀缺的低资源语言环境中，使用 BERT 还是 ULMFiT 的预训练能提供更鲁棒的性能？
RQ4在低资源环境下选择 BERT 与 ULMFiT 时，计算/资源方面的考量有哪些？

主要发现

Model Type	Splits	Val Loss	Val Acc	10K Val Acc	Err Increase	10K Err Increase
BERT-Cased	10k-10k	0.3492	0.8817	-	-	-
BERT-Cased	5k-5k	0.3841	0.8760	0.8976	+0.0057	-0.0159*
BERT-Cased	1k-1k	0.4746	0.8200	0.8437	+0.0617	+0.0380
BERT-Cased	100-100	0.6122	0.7333	0.6517	+0.1484	+0.2300
BERT-Uncased	10k-10k	0.3401	0.8887	-	-	-
BERT-Uncased	5k-5k	0.3727	0.8793	0.8970	+0.0094	-0.0083*
BERT-Uncased	1k-1k	0.5667	0.7933	0.8450	+0.0954	+0.0437
BERT-Uncased	100-100	0.6606	0.6333	0.6407	+0.2554	+0.2480
ULMFiT	10k-10k	0.2496	0.9018	-	-	-
ULMFiT	5k-5k	0.2489	0.8961	0.8887	+0.0057	+0.0194
ULMFiT	1k-1k	0.4193	0.8183	0.8236	+0.0835	+0.0782
ULMFiT	100-100	0.7020	0.4390	0.4904	+0.4628	+0.4114

ULMFiT 在完整的 10K-10K 拆分上达到最终验证准确率 0.9018，在 1K-1K 时误差略增（0.0835），在 100-100 时增幅较大（0.4628）。
BERT 微调在数据减少时显示出较小的准确率下降；1K-1K 拆分对有大小写两种模型均产生适度的误差增加。
在数据减少的情景下，BERT 通常显示出比 ULMFiT 更低的平均验证误差增加，表明对数据稀缺具有更强鲁棒性。
BERT-Cased 与 BERT-Uncased 显示出可比的性能，在某些拆分中未小幅优于大小写版本。
ULMFiT 提供更低的计算需求和更快的训练速度，在预训练模型不可用时具有吸引力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。