Skip to main content
QUICK REVIEW

[论文解读] The Interplay of Variant, Size, and Task Type in Arabic Pre-trained Language Models

Go Inoue, Bashar Alhafni|arXiv (Cornell University)|Mar 11, 2021
Topic Modeling参考文献 46被引用 139
一句话总结

本论文在三个变体(MSA、方言阿拉伯语、经典阿拉伯语)以及混合变体上对阿拉伯语语言模型进行受控预训练,分析数据量效应,并表明下游任务中预训练规模不如与微调数据的变体近似度相关。

ABSTRACT

In this paper, we explore the effects of language variants, data sizes, and fine-tuning task types in Arabic pre-trained language models. To do so, we build three pre-trained language models across three variants of Arabic: Modern Standard Arabic (MSA), dialectal Arabic, and classical Arabic, in addition to a fourth language model which is pre-trained on a mix of the three. We also examine the importance of pre-training data size by building additional models that are pre-trained on a scaled-down set of the MSA variant. We compare our different models to each other, as well as to eight publicly available models by fine-tuning them on five NLP tasks spanning 12 datasets. Our results suggest that the variant proximity of pre-training data to fine-tuning data is more important than the pre-training data size. We exploit this insight in defining an optimized system selection model for the studied tasks.

研究动机与目标

  • 调查预训练数据规模如何影响多项阿拉伯语NLP任务的微调性能。
  • 考察三种阿拉伯语变体(MSA、方言阿拉伯语、经典阿拉伯语)及其混合变体对下游任务的影响。
  • 将 CAMeLBERT 模型与八个公开的阿拉伯语预训练语言模型在涵盖 NER、POS、情感、方言识别和诗歌分类的 12 个子任务上进行比较。
  • 提供基于任务特征和数据近似度来选择预训练模型的实用指南。

提出的方法

  • 在不同数据规模和语言变体(MSA、DA、CA、Mix)上对多个 CAMeLBERT 模型进行预训练。
  • 使用 30k WordPiece 词汇表进行分词,并应用整词掩码,重复因子为 10 倍。
  • 在涵盖 NER、POS、情感、方言识别和诗歌分类的 5 项 NLP 任务中,对 12 个子任务进行微调,使用 Hugging Face transformer 的标准实现。
  • 将 CAMeLBERT 的变体与八个公开的阿拉伯语语言模型在 12 个子任务上进行比较,并将 OOV 率作为变体近似度的代理进行分析。
  • 提出一个优化的系统选择方法(CAMeLBERT-Star),根据任务数据特征选择 MSA、DA、CA 还是 Mix 基础模型。

实验结果

研究问题

  • RQ1预训练数据规模如何影响阿拉伯语NLP任务的下游微调性能?
  • RQ2语言变体(MSA、方言阿拉伯语、经典阿拉伯语)及其混合如何影响下游任务性能?
  • RQ3预训练数据与微调数据之间的变体近似度是否比预训练数据规模本身更具影响力?
  • RQ4通过利用变体近似度,优化的模型选择策略是否能提升整体性能?
  • RQ5在广泛任务和数据集上,CAMeLBERT 模型相较于现有阿拉伯语 PLMs 的表现如何?

主要发现

  • 预训练数据规模对微调性能的影响有限且不一致。
  • 变体近似度(MSA/DA/CA 与任务数据的一致性)在很大程度上决定了各任务的性能。
  • 在单一变体模型中,CAMeLBERT-MSA 往往整体表现最好,CAMeLBERT-DA 在方言任务上表现出色,CAMeLBERT-CA 在诗歌分类上表现优异。
  • CAMeLBERT-Mix 通常提升方言任务并提供有竞争力的结果,凸显了多样化预训练数据在某些子任务中的价值。
  • 一种优化的 CAMeLBERT-Star 系统可以利用变体近似度为给定任务选择合适的模型,CAMeLBERT-MSA、CAMeLBERT-DA、CAMeLBERT-CA 与 CAMeLBERT-Mix 之间具有互补优势。
  • 相较于八个现有模型,AraBERTv02 常在平均水平领先,CAMeLBERT-Star 和 CAMeLBERT-Mix 提供了强有力的互补性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。