QUICK REVIEW

[論文レビュー] Operationalizing a National Digital Library: The Case for a Norwegian Transformer Model

Per Egil Kummervold, Javier de la Rosa|arXiv (Cornell University)|Apr 19, 2021

Natural Language Processing Techniques被引用数 23

ひとこと要約

本論文では、国立図書館の所蔵する109GBのデジタル化テキスト（光学式文字認識（OCR）処理済みを含む）を用いて、ノルウェー語に特化した大規模なBERTベースの言語モデルを訓練した。OCRによるノイズは中程度であるが、ノルウェー語のBokmålおよびNynorskタスクにおいて、多言語BERT（mBERT）を上回る性能を発揮し、英語、スウェーデン語、デンマーク語のタスクにおいてもmBERTの性能を向上させた。これは、ノイズを含む大規模な機関のコーパスが、低リソース言語向けに高性能で多言語対応のNLPモデルを生成できることを示している。

ABSTRACT

In this work, we show the process of building a large-scale training set from digital and digitized collections at a national library. The resulting Bidirectional Encoder Representations from Transformers (BERT)-based language model for Norwegian outperforms multilingual BERT (mBERT) models in several token and sequence classification tasks for both Norwegian Bokm{\\aa}l and Norwegian Nynorsk. Our model also improves the mBERT performance for other languages present in the corpus such as English, Swedish, and Danish. For languages not included in the corpus, the weights degrade moderately while keeping strong multilingual properties. Therefore, we show that building high-quality models within a memory institution using somewhat noisy optical character recognition (OCR) content is feasible, and we hope to pave the way for other memory institutions to follow.

研究の動機と目的

国立図書館のデジタル化コレクションを用いて、大規模かつノルウェー語に特化した高精度なモノリンガルノルウェー語BERTモデルを訓練する可能性を調査すること。
機関のアーカイブから得られる、多少ノイズを含むOCR処理済みテキストが、トランスフォーマー・モデルの訓練データとして効果的であるかどうかを評価すること。
mBERTなどの多言語ベースラインと比較して、ノルウェー語BokmålおよびNynorskにおけるモデルの性能を評価すること。
特にスウェーデン語、デンマーク語、英語といった関連言語を含めた、モデルの多言語能力を検討すること。
国立記憶機関が、低リソース言語向けに高品質でオープンソースのNLPモデルを構築・公開することで、デジタル図書館を実用化できることを実証すること。

提案手法

国立図書館の内部非公開コレクションを活用し、新聞、政府文書、Wikipediaなど多様なデジタルソースから109GBの重複除去済みテキストコーパスを構築した。
mBERTアーキテクチャをベースとし、ノルウェー語に焦点を当てた多言語語彙（119,547トークン）を用いて、BERTベースの言語モデルを訓練した。
標準的なBERT事前学習目的（マスクされた言語モデリングと次文予測）を、大規模なノルウェー語コーパス上で実行した。
mBERTの訓練当時では利用不可だった、大規模バッチサイズとLAMB最適化手法を採用し、収束性と性能を向上させた。
ノルウェー語BokmålおよびNynorskのトークン分類およびシーケンス分類タスクで微調整を行い、mBERTおよび他のベースラインと比較した。
英語、スウェーデン語、デンマーク語、スペイン語、フィンランド語のゼロショットタスクでモデルの多言語転送性能を評価した。

実験結果

リサーチクエスチョン

RQ1国立図書館のデジタル化・OCR処理済みコレクションから、ノルウェー語に特化した大規模なBERTモデルを訓練した場合、ノルウェー語NLPタスクにおいて多言語モデル（mBERT）を上回る性能を発揮できるか？
RQ2国立図書館の大きなノイズを含むコーパスで学習した場合、特にスウェーデン語やデンマーク語といった近縁言語において、多言語能力が保持されたり向上する程度はどの程度か？
RQ3訓練データに英語テキストがわずか4％しか含まれないにもかかわらず、英語NLPタスクにおけるモデルの性能が向上するか？
RQ4訓練データに含まれるOCRエラーが、最終的なモデル性能に与える影響は何か？また、モデルはそれらのエラーを学習によって緩和できるか？
RQ5国立図書館が、低リソース言語向けに高品質でオープンソースのNLPモデルを訓練するための有効なリソースとして機能できるか？

主な発見

ノルウェー語BERTモデルは、ノルウェー語BokmålおよびNynorskのシーケンス分類およびトークン分類タスクにおいて、mBERTを上回る性能を示し、ターゲット言語向けに優れた性能を発揮した。
英語、スウェーデン語、デンマーク語のタスクにおいても、mBERTの性能を向上させた。英語は訓練データの4％に過ぎないにもかかわらず、これは強力な多言語転送能力を示している。
語彙に含まれない言語（スペイン語、フィンランド語）では性能が多少低下したが、依然として高い水準を維持しており、明示的な学習がなくても有用な多言語特性を保持していることが示された。
訓練データにOCRノイズが含まれても、モデルの性能は高く維持された。これは、この文脈ではデータ量とスケールが、データ品質を上回ることがあることを示唆している。
大規模バッチサイズとLAMB最適化手法といった高度な訓練技術の活用が、特に英語の能力向上に寄与した可能性がある。
結果として、国立図書館がデジタルコレクションを高品質でオープンなNLPリソースに変換できることが裏付けられ、他の機関における同様の取り組みの道筋が示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。