[论文解读] Playing with Words at the National Library of Sweden -- Making a Swedish BERT
KB-BERT,是瑞典语BERT模型,在瑞典国家图书馆的多样化语料上训练,在NER和POS任务上优于M-BERT和Arbetsförmedlingen的瑞典语模型;该模型及训练数据公开发布。
This paper introduces the Swedish BERT ("KB-BERT") developed by the KBLab for data-driven research at the National Library of Sweden (KB). Building on recent efforts to create transformer-based BERT models for languages other than English, we explain how we used KB's collections to create and train a new language-specific BERT model for Swedish. We also present the results of our model in comparison with existing models - chiefly that produced by the Swedish Public Employment Service, Arbetsförmedlingen, and Google's multilingual M-BERT - where we demonstrate that KB-BERT outperforms these in a range of NLP tasks from named entity recognition (NER) to part-of-speech tagging (POS). Our discussion highlights the difficulties that continue to exist given the lack of training data and testbeds for smaller languages like Swedish. We release our model for further exploration and research here: https://github.com/Kungbib/swedish-bert-models .
研究动机与目标
- 演示KB如何利用瑞典国家图书馆的馆藏来构建瑞典语BERT模型。
- 描述用于预训练的语料构建、清洗与准备。
- 在下游任务上评估KB-BERT相对于现有的瑞典语和多语言模型的表现。
- 突出数据多样性以及训练瑞典语语言模型时面临的实际挑战。
- 讨论未来研究方向以及瑞典NLP测试平台的开发。
提出的方法
- 解释数据来源自KB馆藏,包括报纸、政府报告、法律电子存档、社交媒体以及瑞典语维基百科,以构建广泛的瑞典语语料库。
- 描述语料清洗和预处理步骤,包括使用Saldo修复OCR错误以及形态学检查。
- 详细说明针对瑞典语和OCR伪影定制的句子/段落切分策略,包括对社交媒体文本中的表情符号处理。
- 解释使用SentencePiece创建分词器,词汇量约50,000,以捕捉瑞典语复合词。
- 概述以BERT架构进行的预训练设置、步骤、序列长度、批量大小以及所使用的云TPU资源。
- 通过下游的NER和POS任务,将KB-BERT与现有瑞典语和多语言模型进行比较。
实验结果
研究问题
- RQ1在多样化、民主来源语料上训练专门的瑞典语BERT,与多语言或现有瑞典语模型相比,对下游瑞典语NLP任务有何影响?
- RQ2包括口语化和社交媒体语言(包括表情符号)对模型性能与鲁棒性有何影响?
- RQ3哪些数据来源和预处理选择对瑞典语BERT的性能影响最大,以及实际训练中的考虑因素?
- RQ4瑞典语语言模型的局限性与数据/测试平台的空白有哪些,未来如何加以解决?
主要发现
| 标签 | AF-AI | M-BERT | KB-BERT | HFST* |
|---|---|---|---|---|
| PER | 0.913 | 0.945 | 0.961 | 0.913 |
| ORG | 0.780 | 0.834 | 0.884 | 0.534 |
| LOC | 0.913 | 0.942 | 0.958 | 0.780 |
| TME | 0.655 | 0.888 | 0.906 | – |
| MSR | 0.828 | 0.853 | 0.890 | – |
| WRK | 0.596 | 0.631 | 0.720 | 0.275 |
| EVN | 0.716 | 0.792 | 0.834 | 0.513 |
| OBJ | 0.710 | 0.761 | 0.770 | 0.437 |
| AVG | 0.876 | 0.906 | 0.927 | – |
- KB-BERT在NER任务的多个实体类型上优于M-BERT和Arbetsförmedlingen的瑞典语模型。
- 与NER提升相比,KB-BERT在POS标注上的改进较小(相对不足1%)。
- 预训练结果显示NER在初期(约10k步)迅速提升,超过数十万步后收益递减,与其他语言的类似工作一致。
- 包含多样化数据类型,包括社媒和带表情符号的口语语言,有助于超越正式文本的更广泛语言理解和鲁棒性。
- 研究强调瑞典语在数据和测试平台方面的持续挑战,并概述与瑞典研究机构合作开发改进的瑞典语NLP测试平台的计划。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。