Skip to main content
QUICK REVIEW

[论文解读] Establishing Baselines for Text Classification in Low-Resource Languages

Jan Christian Blaise Cruz, Charibeth Cheng|arXiv (Cornell University)|May 5, 2020
Topic Modeling参考文献 19被引用 32
一句话总结

本文发布了菲律宾语文本分类基准、预训练的菲律宾语 BERT/DistilBERT 模型,以及用于在低数据条件下评估模型鲁棒性的降级测试。

ABSTRACT

While transformer-based finetuning techniques have proven effective in tasks that involve low-resource, low-data environments, a lack of properly established baselines and benchmark datasets make it hard to compare different approaches that are aimed at tackling the low-resource setting. In this work, we provide three contributions. First, we introduce two previously unreleased datasets as benchmark datasets for text classification and low-resource multilabel text classification for the low-resource language Filipino. Second, we pretrain better BERT and DistilBERT models for use within the Filipino setting. Third, we introduce a simple degradation test that benchmarks a model's resistance to performance degradation as the number of training samples are reduced. We analyze our pretrained model's degradation speeds and look towards the use of this method for comparing models aimed at operating within the low-resource setting. We release all our models and datasets for the research community to use.

研究动机与目标

  • 提供菲律宾语文本分类和低资源多标签分类的标准基准数据集。
  • 使用 512 输入长度对更强的菲律宾语 BERT 模型进行预训练,并为资源受限场景发布 DistilBERT。
  • 引入降级测试,在训练数据减少时衡量模型性能,以模拟低资源条件。

提出的方法

  • 对推文进行标准化分词的预处理,并为链接、提及和话题标签添加特殊标记。
  • 在 WikiText-TL-39 上以 512 最大序列长度和 30k 词汇表,使用 WordPiece,对菲律宾语 Tagalog BERT 模型(大小写敏感/不敏感、标准/整词掩码)进行预训练。
  • 使用三轮蒸馏从最佳 BERT 教师模型中提取一个更小的 DistilBERT 模型。
  • 在两个菲律宾语数据集(菲律宾语的 Hate Speech 二分类和 Dengue 多标签)上,使用标准超参数和 5 折交叉验证,对 BERT 和 DistilBERT 进行微调。
  • 使用 Hate Speech 的准确率和 Dengue 的哈明损失进行评估。

实验结果

研究问题

  • RQ1是否可以建立菲律宾语文本分类基准,以实现对低资源 NLP 方法的公平比较?
  • RQ2预训练的菲律宾语 BERT 和 DistilBERT 模型在菲律宾语的二分类仇恨言论和多分类/多标签任务上的表现如何?
  • RQ3通过降级测试衡量,这些模型对数据稀缺的鲁棒性如何?
  • RQ4更长的输入长度和整词掩码是否提升菲律宾语 NLP 任务的表现?
  • RQ5模型蒸馏在低资源环境下对性能有何影响?

主要发现

  • 预训练的菲律宾语 BERT 模型(512 最大序列)在 Hate Speech 和 Dengue 数据集上的微调结果具有竞争力。
  • DistilBERT 通常比较大的 BERT 模型在数据减少条件下退化得更快。
  • 整词掩码模型相较于非整词掩码模型展现出略慢的降级。
  • 降级测试表明,在数据极低(1k 样本)时性能显著下降,在 5k 样本时下降较小。
  • 蒸馏得到一个可用的较小模型,在低资源场景下相比完整版 BERT 性能略有下降。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。