QUICK REVIEW

[论文解读] ARBERT & MARBERT: Deep Bidirectional Transformers for Arabic.

Muhammad Abdul-Mageed, AbdelRahim Elmadany|arXiv (Cornell University)|Dec 27, 2020

Natural Language Processing Techniques参考文献 65被引用 138

一句话总结

本文提出了 ARBERT 和 MARBERT，两种基于深度双向 Transformer 的语言模型，其在大规模、多样化的阿拉伯语数据集（包括社交媒体和多种阿拉伯语方言）上进行预训练，以提升多语言及低资源阿拉伯语 NLP 任务的性能。作者还提出了 ARLUE，一个包含 42 个数据集的全新基准，涵盖六个任务类别，其最佳模型在 ARLUE 基准上取得了 77.40 的新 SOTA 分数，优于更大规模的模型（如 XLM-R Large），尽管其参数量仅为后者的 1/3.4。

ABSTRACT

Pre-trained language models (LMs) are currently integral to many natural language processing systems. Although multilingual LMs were also introduced to serve many languages, these have limitations such as being costly at inference time and the size and diversity of non-English data involved in their pre-training. We remedy these issues for a collection of diverse Arabic varieties by introducing two powerful deep bidirectional transformer-based models, ARBERT and MARBERT. To evaluate our models, we also introduce ARLUE, a new benchmark for multi-dialectal Arabic language understanding evaluation. ARLUE is built using 42 datasets targeting six different task clusters, allowing us to offer a series of standardized experiments under rich conditions. When fine-tuned on ARLUE, our models collectively achieve new state-of-the-art results across the majority of tasks (37 out of 48 classification tasks, on the 42 datasets). Our best model acquires the highest ARLUE score (77.40) across all six task clusters, outperforming all other models including XLM-R Large (~ 3.4 x larger size). Our models are publicly available at https://github.com/UBC-NLP/marbert and ARLUE will be released through the same repository.

研究动机与目标

为解决现有阿拉伯语多语言及单语语言模型在处理方言、社交媒体语言方面表现不佳，以及推理成本过高的问题。
开发高效、高性能的阿拉伯语语言模型，服务于包括非标准方言在内的多样化语言群体。
构建一个标准化、全面的阿拉伯语 NLP 评估基准，以支持任务与模型间的可靠比较。
证明中等规模的阿拉伯语专用模型可在准确率与能效方面超越更大规模的多语言模型（如 XLM-R Large）。

提出的方法

使用大规模、多样化的阿拉伯语文本数据对 ARBERT 和 MARBERT 进行预训练，涵盖现代标准阿拉伯语（MSA）及多种阿拉伯语方言。
通过迁移学习在广泛下游 NLP 任务上微调模型。
设计并构建 ARLUE，一个由 42 个数据集组成的全新基准，划分为六个主题任务类别：情感分析、社会语义理解、主题分类、方言意图识别、方言识别与命名实体识别。
对所有 42 个数据集统一数据划分与评估协议，以确保可复现性与公平比较。
采用多任务评估策略，计算一个综合 ARLUE 分数，以概括所有类别上的整体性能。
利用自监督预训练方法，结合掩码语言建模与下一句预测任务，并针对阿拉伯语的形态复杂性与书写系统多样性进行适配。

实验结果

研究问题

RQ1阿拉伯语专用语言模型是否能在参数量显著更小、能效更高的前提下，超越通用多语言模型（如 XLM-R）在阿拉伯语 NLP 任务上的表现？
RQ2在多样化、非标准阿拉伯语文本（如社交媒体）上进行预训练，能在多大程度上提升模型在方言与非正式语言理解方面的能力？
RQ3标准化的、多数据集的基准（如 ARLUE）如何提升阿拉伯语 NLP 模型评估的可靠性与可比性？
RQ4中等规模的阿拉伯语专用模型是否能在多种阿拉伯语 NLP 任务中超越更大规模的多语言模型？
RQ5当前 SOTA 阿拉伯语模型（如 AraBERT）在方言与社交媒体文本上的表现如何？其存在哪些局限性？

主要发现

ARBERT 和 MARBERT 在 ARLUE 基准上取得了 77.40 的新 SOTA 分数，优于所有其他模型，包括参数量大 3.4 倍的 XLM-R Large。
在 ARLUE 的测试集上，MARBERT (v2) 在全部六个任务类别中取得最高分，平均准确率为 77.87%，F1 为 76.94%。
MARBERT (v2) 在 ARLUESenti 任务上取得 93.30% 的 F1，优于 mBERT（79.02% F1）与 XLM-R（93.18% F1），表明其在情感分析任务中表现更优。
在 ARLUEQA 任务上，MARBERT (v2) 取得 40.47% 的 Exact Match 与 62.09% 的 F1，显著优于 AraBERT（36.29% EM，57.81% F1），表明其在机器阅读理解任务中表现更佳。
在 ARLUE 的 42 个数据集共 48 项独立分类任务中，模型在 37 项上达到 SOTA 水平，展现出广泛的适用性。
MARBERT (v2) 在 ARLUEDia-R 任务上取得 90.04% 的 Exact Match 与 89.67% 的 F1，表明其在方言识别这一阿拉伯语 NLP 的关键挑战上表现强劲。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。