Skip to main content
QUICK REVIEW

[论文解读] Operationalizing a National Digital Library: The Case for a Norwegian Transformer Model

Per Egil Kummervold, Javier de la Rosa|arXiv (Cornell University)|Apr 19, 2021
Natural Language Processing Techniques被引用 23
一句话总结

本论文提出了一种基于 BERT 的大规模挪威语语言模型,其训练数据来自挪威国家图书馆馆藏的 109GB 数字化文本,包括经 OCR 处理的资料。尽管 OCR 噪声中等,该模型在挪威语书面语(Bokmål)和新挪威语(Nynorsk)任务上均优于多语言 BERT(mBERT),甚至提升了 mBERT 在英语、瑞典语和丹麦语上的表现,证明了嘈杂的、大规模的机构语料库仍可生成高性能的多语言 NLP 模型,适用于低资源语言。

ABSTRACT

In this work, we show the process of building a large-scale training set from digital and digitized collections at a national library. The resulting Bidirectional Encoder Representations from Transformers (BERT)-based language model for Norwegian outperforms multilingual BERT (mBERT) models in several token and sequence classification tasks for both Norwegian Bokm{\\aa}l and Norwegian Nynorsk. Our model also improves the mBERT performance for other languages present in the corpus such as English, Swedish, and Danish. For languages not included in the corpus, the weights degrade moderately while keeping strong multilingual properties. Therefore, we show that building high-quality models within a memory institution using somewhat noisy optical character recognition (OCR) content is feasible, and we hope to pave the way for other memory institutions to follow.

研究动机与目标

  • 探究利用国家图书馆的大规模数字化馆藏训练高性能单语挪威语 BERT 模型的可行性。
  • 评估来自机构档案的 OCR 处理、存在一定噪声的文本是否可作为 Transformer 模型的有效训练数据。
  • 与 mBERT 等多语言基线模型相比,评估该模型在挪威语书面语和新挪威语上的表现。
  • 探索该模型的多语言能力,特别是其对相关语言(如瑞典语、丹麦语和英语)的影响。
  • 证明国家记忆机构可通过构建并发布高质量、开源的 NLP 模型,实现数字图书馆的实用化。

提出的方法

  • 从挪威国家图书馆内部非公开的多样化数字化资源(包括报纸、政府文件和维基百科)中构建了 109GB 的去重文本语料库。
  • 基于 mBERT 架构作为基础,使用包含 119,547 个词元的多语言词汇表,训练了一个以挪威语为重点的 BERT 基础语言模型。
  • 应用标准的 BERT 预训练目标:在大规模挪威语语料库上进行掩码语言建模和下一句预测。
  • 采用大批次大小和 LAMB 优化器——这些技术在 mBERT 训练期间尚不可用——以提升收敛性和性能。
  • 在挪威语书面语和新挪威语的词元与序列分类任务上对模型进行微调,并与 mBERT 及其他基线模型进行比较。
  • 评估模型在英语、瑞典语、丹麦语、西班牙语和芬兰语上的零样本能力,以评估其多语言迁移性能。

实验结果

研究问题

  • RQ1能否通过国家图书馆的数字化 OCR 处理语料库训练出一个仅针对挪威语的大规模 BERT 模型,并使其在挪威语 NLP 任务上优于 mBERT 等多语言模型?
  • RQ2在国家图书馆的大规模、有噪声语料库上进行训练,能在多大程度上保持或增强多语言能力,特别是对瑞典语和丹麦语等密切相关的语言?
  • RQ3尽管该模型以挪威语为重点,但训练数据中仅包含 4% 的英语文本,这是否能提升模型在英语 NLP 任务上的表现?
  • RQ4训练数据中的 OCR 错误如何影响最终模型的性能?模型是否能学会缓解这些错误?
  • RQ5国家图书馆是否可作为训练高质量、开源 NLP 模型用于低资源语言的可行数据源?

主要发现

  • 该挪威 BERT 模型在挪威语书面语和新挪威语的序列与词元分类任务上均优于 mBERT,证明了其在目标语言上的优越性能。
  • 该模型即使在英语仅占训练数据 4% 的情况下,仍提升了 mBERT 在英语、瑞典语和丹麦语上的表现,表明其具备强大的多语言迁移能力。
  • 在未在训练中显式接触的词汇外语言(如西班牙语和芬兰语)上,性能略有下降但依然表现良好,表明该模型在无显式训练的情况下仍保留了有用的多语言特性。
  • 尽管训练数据中存在 OCR 噪声,模型仍保持了高性能,表明在此类任务中,数据量和规模可能比数据质量更具决定性。
  • 采用先进的训练技术(特别是大批次大小和 LAMB 优化器)很可能显著提升了模型性能,尤其在提升英语能力方面效果显著。
  • 结果验证了国家图书馆可将数字馆藏实用化为高质量、开源的 NLP 资源,为其他机构开展类似项目铺平了道路。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。