Skip to main content
QUICK REVIEW

[论文解读] Multi-Dialect Arabic BERT for Country-Level Dialect Identification

Bashar Talafha, Mohammad Ali|arXiv (Cornell University)|Jul 10, 2020
Natural Language Processing Techniques参考文献 25被引用 45
一句话总结

论文介绍 Mawdoo3 AI 在 NADI 任务1 中的获胜方法,使用对 ArabicBERT 进行微调并增添 10M 未标记推文,进行集成预测,在子任务上达到 micro-F1 26.78%;模型以 Multi-dialect-Arabic-BERT 发布。

ABSTRACT

Arabic dialect identification is a complex problem for a number of inherent properties of the language itself. In this paper, we present the experiments conducted, and the models developed by our competing team, Mawdoo3 AI, along the way to achieving our winning solution to subtask 1 of the Nuanced Arabic Dialect Identification (NADI) shared task. The dialect identification subtask provides 21,000 country-level labeled tweets covering all 21 Arab countries. An unlabeled corpus of 10M tweets from the same domain is also presented by the competition organizers for optional use. Our winning solution itself came in the form of an ensemble of different training iterations of our pre-trained BERT model, which achieved a micro-averaged F1-score of 26.78% on the subtask at hand. We publicly release the pre-trained language model component of our winning solution under the name of Multi-dialect-Arabic-BERT model, for any interested researcher out there.

研究动机与目标

  • 激发并解决跨21个阿拉伯国家的国家级阿拉伯语方言识别挑战。
  • 利用预训练的 Arabic BERT 和大量未标注数据来提升方言分类。
  • 开发包含不同最大序列长度的模型集成以提升性能。
  • 向研究社区发布一个预训练的 Multi-dialect-Arabic-BERT 模型。

提出的方法

  • 从在 ~93 GB 的阿拉伯语数据上训练的 ArabicBERT 开始,并在 NADI Task 1 数据上微调。
  • 在 10M 未标注的 NADI 推文上对 ArabicBERT 进行额外的预训练 3 个 epoch,以创建 Multi-dialect-Arabic-BERT。
  • 以不同的最大序列长度进行多次训练迭代,并通过对概率取平均来集成它们的 softmax 输出。
  • 与传统机器学习和其他深度学习基线方法进行比较,显示基于 BERT 的模型优于它们。
  • 可选地应用基于词汇表的事后规则,这些规则提高了开发指标但由于过拟合使测试结果下降。

实验结果

研究问题

  • RQ1经过领域数据进一步预训练的预训练 Arabic BERT 模型是否可以在国家级阿拉伯语方言识别任务中达到最先进的性能?
  • RQ2将多个不同序列长度的 BERT 迭代结果进行集成是否会提升 NADI 任务的 macro-F1?
  • RQ3额外未标注数据(10M 条推文)对模型性能的影响?
  • RQ4在 NADI Task 1 上,基于 BERT 的方法与传统 ML 和其他 DL 方法相比如何?

主要发现

模型开发集准确率开发集 F1-分数测试集准确率测试集 F1-分数
MADAR-Safina33.3510.1--
Logistic-Regression35.6516.57--
MADAR-1 Mawdoo333.4512.24--
MADAR-1 JUST30.317.07--
FastText-embeddings34.2819.74--
Aravec fully connected35.6720.86--
Arabic-BERT-Single40.8524.45--
Arabic-BERT-Ensemble-Diff-Len41.4824.92--
Multi-dialect-Arabic-BERT43.726--
Multi-dialect-Arabic-BERT-Ensemble-Diff-Len44.9527.5842.8626.77
Multi-dialect-Arabic-BERT-Ensemble-Diff-Len with rules45.0729.0342.5526.77
  • 4 个不同序列长度模型的集成在开发集上获得最佳 macro-F1 (27.58%),在测试集上获得 macro-F1 (26.78%)。
  • 单独的 Multi-dialect-Arabic-BERT 在开发集上达到 26% macro-F1;集成后提升至 27.58%(开发)和 26.78%(测试)。
  • 基于词汇表的规则将开发 F1 提升至 29.03%,但将测试 F1 稍微降至 26.77%。
  • 传统 ML 和非 BERT DL 模型的表现不及基于 BERT 的方法,开发集 macro-F1 未超过约 21%。
  • 最终提交的方法在 NADI Task 1 中获得第一名,子任务报告 micro-F1 为 26.78%。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。