Skip to main content
QUICK REVIEW

[论文解读] Transfer Learning and Distant Supervision for Multilingual Transformer Models: A Study on African Languages

Michael A. Hedderich, David Ifeoluwa Adelani|arXiv (Cornell University)|Oct 7, 2020
Natural Language Processing Techniques参考文献 45被引用 49
一句话总结

本论文研究多语言 transformer 模型(mBERT 和 XLM-RoBERTa)在三种非洲语言(Hausa、isiXhosa、Yorùbá)上的命名实体识别(NER)和新闻主题分类的迁移学习与遥感监督(distant supervision),结果表明在现实的低资源环境中,极少量带标注的数据就能实现有竞争力的性能,需注意一些前提条件。

ABSTRACT

Multilingual transformer models like mBERT and XLM-RoBERTa have obtained great improvements for many NLP tasks on a variety of languages. However, recent works also showed that results from high-resource languages could not be easily transferred to realistic, low-resource scenarios. In this work, we study trends in performance for different amounts of available resources for the three African languages Hausa, isiXhosa and Yor\\`ub\\'a on both NER and topic classification. We show that in combination with transfer learning or distant supervision, these models can achieve with as little as 10 or 100 labeled sentences the same performance as baselines with much more supervised training data. However, we also find settings where this does not hold. Our discussions and additional experiments on assumptions such as time and hardware restrictions highlight challenges and opportunities in low-resource learning.

研究动机与目标

  • 推动在现实的低资源非洲语言中对多语言 transformer 的评估。
  • 评估从高资源语言对 Hausa、isiXhosa、Yorùbá 的迁移学习用于 NER 与主题分类。
  • 评估 distant supervision 作为低资源环境中人工标注的替代或补充。
  • 研究低资源 NLP 的实际考量,如时间、硬件和标注工作量。
  • 提供公开数据集和见解,以引导未来低资源多语言 NLP 的研究。

提出的方法

  • 在 Hausa、isiXhosa 和 Yorùbá 的 NER 与主题分类上评估 mBERT 和 XLM-RoBERTa。
  • 将 transformer 模型与传统的基于 RNN 的基线(GRU、LSTM-CNN-CRF、RCNN)在语言模型预训练下进行比较。
  • 通过在高资源的英语任务(CoNLL03 NER、AG News)上微调来研究迁移学习,并评估对目标语言的零-shot 或少量-shot 迁移。
  • 基于 Wikidata 实体列表和语言特定启发式规则生成并评估用于 NER 和主题标签的 distant supervision 规则。
  • 研究标签噪声处理以及将 distant supervision 与鲁棒训练结合的影响。
  • 讨论在低资源情景中的开发集、硬件约束和标注时间等实际考量。

实验结果

研究问题

  • RQ1在低资源的非洲语言中,更复杂的 transformer 模型与已确立的 RNN 相比如何?
  • RQ2从高资源语言到 Hausa、isiXhosa 和 Yorùbá 的迁移学习在 NER 与主题分类中有多有效?
  • RQ3在与 transformer 模型一起使用时,distant supervision 对这些低资源语言是否有益?
  • RQ4在实践中,哪些现实假设(开发集、硬件、标注时间)会影响低资源多语言 NLP?

主要发现

  • Transformers 在低资源环境下对 Hausa 和 Yorùbá 的 NER,以及对 isiXhosa 在某些情形下,比 RNN 基线更具优势,CRF 在某些情况下仍具竞争力。
  • 从英语的迁移学习可以带来显著提升;对于 NER,使用少至十个带标注的目标句子就能在共享标签集上将 F1 提升至少 10 点。
  • 当数据极度稀缺时,distant supervision 提供有用的增益,例如在某些噪声处理设置下,Yorùbá 的 NER 使用 100 条带标注句子即可达到相当于 400 条人工标注句子的效果。
  • 单独使用 distant supervision 在测试集上给出适度的 F1(例如 Hausa NER 54%、Yorùbá NER 62%;主题分类 49% Hausa、55% Yorùbá),其效益取决于标签噪声处理和可用的人工数据。
  • 硬件与模型规模影响结果,在某些情形下 DistilBERT 提供了相似的性能,但在极少量样本的 NER 任务中性能下降。
  • 实际标注时间的考虑显示 distant supervision 与基于规则的标注在可行性方面是可行的,但需要与人工标注工作量进行仔细评估对比。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。