Skip to main content
QUICK REVIEW

[论文解读] BERTić - The Transformer Language Model for Bosnian, Croatian, Montenegrin and Serbian

Nikola Ljubešić, Davor Lauc|arXiv (Cornell University)|Apr 1, 2021
Natural Language Processing Techniques参考文献 8被引用 3
一句话总结

BERTić 是一个在波斯尼亚语、克罗地亚语、黑山语和塞尔维亚语网络领域共 80 亿词符的文本上预训练的多语言 Transformer 语言模型。它在词性标注、命名实体识别、地理位置预测以及常识推理任务上实现了最先进性能,包括新发布的克罗地亚语 COPA 数据集(COPA-HR),并通过 HuggingFace 公开提供以供微调。

ABSTRACT

In this paper we describe a transformer model pre-trained on 8 billion tokens of crawled text from the Croatian, Bosnian, Serbian and Montenegrin web domains. We evaluate the transformer model on the tasks of part-of-speech tagging, named-entity-recognition, geo-location prediction and commonsense causal reasoning, showing improvements on all tasks over state-of-the-art models. For commonsense reasoning evaluation we introduce COPA-HR - a translation of the Choice of Plausible Alternatives (COPA) dataset into Croatian. The BERTic model is made available for free usage and further task-specific fine-tuning through HuggingFace.

研究动机与目标

  • 开发一个针对波斯尼亚语、克罗地亚语、黑山语和塞尔维亚语这些南斯拉夫语言的高资源多语言语言模型。
  • 提升在这些低资源语言变体上的下游自然语言处理任务性能,包括词性标注、命名实体识别、地理位置预测和常识推理。
  • 创建并发布一个高质量、人工翻译的克罗地亚语 COPA 数据集(COPA-HR),用于评估目标语言中的常识推理能力。
  • 通过 HuggingFace 免费发布预训练模型,以供进一步研究和微调。

提出的方法

  • 该模型是一个 BERT 风格的 Transformer 编码器,基于从波黑、克罗地亚、黑山和塞尔维亚网络领域收集的 80 亿词符的单语文本进行预训练。
  • 预训练使用掩码语言建模和下一句预测目标,这是 BERT 架构中的标准方法,用于学习上下文表示。
  • 训练数据来自公开可用的网络爬取数据,重点在于四个相关语言之间的领域相关性和语言一致性。
  • 该模型在四个下游任务上进行评估:词性标注、命名实体识别、地理位置预测和常识因果推理。
  • 在常识推理方面,作者引入了 COPA-HR,即原始 COPA 数据集的克罗地亚语翻译,以确保语言和文化的贴合性。
  • 该模型通过 HuggingFace 发布,包含完整的权重和分词支持,供社区使用和微调。

实验结果

研究问题

  • RQ1在特定领域网络文本上预训练的大规模多语言 Transformer 模型,是否能显著提升波斯尼亚语、克罗地亚语、黑山语和塞尔维亚语在自然语言处理任务上的性能?
  • RQ2BERTić 在这些语言的词性标注和命名实体识别任务上,与现有最先进模型相比表现如何?
  • RQ3微调后的 BERTić 模型在多大程度上能通过上下文语言理解支持地理位置预测?
  • RQ4新创建的 COPA-HR 数据集在评估目标语言中的常识因果推理方面有多有效?
  • RQ5一个单一的多语言模型是否能有效作为多种自然语言处理任务在密切相关的南斯拉夫语言中的强大基础?

主要发现

  • BERTić 在所有四种目标语言的词性标注任务上均达到最先进性能,优于以往模型。
  • 该模型在命名实体识别方面表现出显著改进,展现出强大的实体边界和类型分类能力。
  • 在地理位置预测方面,BERTić 利用文本中的上下文线索,比以往方法更准确地推断地理位置。
  • COPA-HR 的引入使得在克罗地亚语中可靠评估常识推理成为可能,BERTić 在这一新引入的基准上表现优异。
  • 该模型在所有评估任务中均持续优于现有基线,证实了在特定领域多语言语料上进行大规模预训练的价值。
  • BERTić 在 HuggingFace 上的发布,使得其在巴尔干语言语境下的广泛采用和面向特定自然语言处理应用的进一步微调成为可能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。