[論文レビュー] Playing with Words at the National Library of Sweden -- Making a Swedish BERT
KB-BERT は、スウェーデン国立図書館の多様なスウェーデン語コーパスを用いて訓練されたスウェーデン語BERTモデルで、NERとPOSタスクにおいて M-BERT および Arbetsförmedlingen のスウェーデン語モデルを上回り、モデルと訓練データは公開されています。
This paper introduces the Swedish BERT ("KB-BERT") developed by the KBLab for data-driven research at the National Library of Sweden (KB). Building on recent efforts to create transformer-based BERT models for languages other than English, we explain how we used KB's collections to create and train a new language-specific BERT model for Swedish. We also present the results of our model in comparison with existing models - chiefly that produced by the Swedish Public Employment Service, Arbetsförmedlingen, and Google's multilingual M-BERT - where we demonstrate that KB-BERT outperforms these in a range of NLP tasks from named entity recognition (NER) to part-of-speech tagging (POS). Our discussion highlights the difficulties that continue to exist given the lack of training data and testbeds for smaller languages like Swedish. We release our model for further exploration and research here: https://github.com/Kungbib/swedish-bert-models .
研究の動機と目的
- KB がスウェーデン国立図書館の所蔵コレクションを用いてスウェーデン語BERTモデルを構築する方法を示す。
- 事前訓練のためのコーパス構築、クレンジング、および準備を説明する。
- KB-BERT を既存のスウェーデン語モデルおよび多言語モデルと下流タスクで比較評価する。
- データの多様性とスウェーデン語言語モデルの訓練における実務上の課題を強調する。
- スウェーデン語NLPの将来の研究方向とテストベッド開発について議論する。
提案手法
- 新聞、政府報告、法的電子納品、ソーシャルメディア、スウェーデン語版ウィキペディアを含むKB コレクションからデータを取得して広範なスウェーデン語コーパスを構築する。
- OCRエラーの修正を含むコーパスのクレンジングと前処理の手順を説明する(Saldoを用いた修正と形態学的チェックを含む)。
- スウェーデン語とOCRアーティファクトに合わせた文/段落分割戦略を詳述し、ソーシャルメディアテキストの絵文字処理を含む。
- スウェーデン語の複合語を捉える約50,000トークンの語彙を用いたSentencePieceによるトークナイザ作成を説明する。
- BERT アーキテクチャを用いた事前訓練の設定、手順、シーケンス長、バッチサイズ、および使用したクラウド TPU リソースを概説する。
- 下流のNERおよびPOSタスクを通じて、KB-BERT を既存のスウェーデン語モデルおよび多言語モデルと比較する。
実験結果
リサーチクエスチョン
- RQ1多様で民主的に派生したコーパス上でのスウェーデン語特化型BERTの訓練が、他言語モデルや既存のスウェーデン語モデルと比較して下流のスウェーデン語NLPタスクにどのような影響を与えるか?
- RQ2口語表現およびソーシャルメディア言語(絵文字を含む)の含有がモデルの性能と頑健性に与える影響はどの程度か?
- RQ3スウェーデン語BERTの性能に最も影響を与えるデータソースと前処理の選択は何で、実務上の訓練上の考慮事項は何か?
- RQ4スウェーデン語言語モデルの限界とデータ/テストベッドのギャップは何であり、今後の研究でどう対処できるか?
主な発見
| タグ | AF-AI | M-BERT | KB-BERT | HFST* |
|---|---|---|---|---|
| PER | 0.913 | 0.945 | 0.961 | 0.913 |
| ORG | 0.780 | 0.834 | 0.884 | 0.534 |
| LOC | 0.913 | 0.942 | 0.958 | 0.780 |
| TME | 0.655 | 0.888 | 0.906 | – |
| MSR | 0.828 | 0.853 | 0.890 | – |
| WRK | 0.596 | 0.631 | 0.720 | 0.275 |
| EVN | 0.716 | 0.792 | 0.834 | 0.513 |
| OBJ | 0.710 | 0.761 | 0.770 | 0.437 |
| AVG | 0.876 | 0.906 | 0.927 | – |
- KB-BERT は NER タスクにおいて複数のエンティティタイプで M-BERT および Arbetsförmedlingen のスウェーデン語モデルを上回る。
- KB-BERT による POS タグ付けの改善幅は NER の利得に比べ小さい(相対的には 1% 未満)。
- 事前訓練の結果は NER に対して初期の急速な利得を示し(約 10k ステップ)、数十万ステップを超えると収穫逓減が見られる、他言語の同様の研究と一致。
- 多様なデータタイプの包含(ソーシャルメディアや絵文字を含む口語表現)は、正式なテキストだけでなく、広範な言語理解と頑健性に寄与する。
- この研究はスウェーデン語のデータおよびテストベッド関連の課題が継続していることを強調し、スウェーデンの研究機関と協力して改善されたスウェーデン語NLPテストベッドを開発する計画を概説する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。