Skip to main content
QUICK REVIEW

[論文レビュー] BERTić - The Transformer Language Model for Bosnian, Croatian, Montenegrin and Serbian

Nikola Ljubešić, Davor Lauc|arXiv (Cornell University)|Apr 1, 2021
Natural Language Processing Techniques参考文献 8被引用数 3
ひとこと要約

BERTić は、ボスニア語、クロアチア語、モンテネグロ語、セルビア語のウェブドメインから収集した 80 億トークンのテキストを事前学習した多言語トランスフォーマー言語モデルである。このモデルは、品詞タギング、固有表現抽出、地理的位置特定、常識的推論の各タスクで最先端の性能を達成しており、新たに作成されたクロアチア語版 COPA データセット(COPA-HR)を含む。HuggingFace を通じて微調整用に公開されている。

ABSTRACT

In this paper we describe a transformer model pre-trained on 8 billion tokens of crawled text from the Croatian, Bosnian, Serbian and Montenegrin web domains. We evaluate the transformer model on the tasks of part-of-speech tagging, named-entity-recognition, geo-location prediction and commonsense causal reasoning, showing improvements on all tasks over state-of-the-art models. For commonsense reasoning evaluation we introduce COPA-HR - a translation of the Choice of Plausible Alternatives (COPA) dataset into Croatian. The BERTic model is made available for free usage and further task-specific fine-tuning through HuggingFace.

研究の動機と目的

  • ボスニア語、クロアチア語、モンテネグロ語、セルビア語の南スラブ語を対象とした高リソースで多言語な言語モデルの開発。
  • これらの低リソース言語バリアントにおける品詞タギング、固有表現抽出、地理的位置特定、常識的推論などの下流 NLP タスクの性能向上。
  • 常識的推論の評価を目的とした、高品質で人間が翻訳したクロアチア語版 COPA データセット(COPA-HR)の作成および公開。
  • HuggingFace を通じて、今後の研究や微調整のための自由な利用を可能にする。

提案手法

  • モデルは、ボスニア、クロアチア、モンテネグロ、セルビアのウェブドメインから収集した単語言語テキストの 80 億トークンで事前学習された BERT スタイルのトランスフォーマー符号化器である。
  • 事前学習には、BERT アーキテクチャで標準的なマスクされた言語モデリングと次文予測の目的関数が用いられ、文脈的な表現を学習する。
  • 訓練データは、一般公開のウェブクロールから収集され、4 つの関連言語におけるドメイン関連性と言語的一致性に重点を置いている。
  • モデルは 4 つの下流タスクで評価されている:品詞タギング、固有表現抽出、地理的位置特定、常識的因果推論。
  • 常識的推論のため、著者らは元の COPA データセットのクロアチア語翻訳版である COPA-HR を導入し、言語的および文化的な関連性を確保した。
  • モデルは HuggingFace に公開され、コミュニティ利用および微調整用に完全な重みとトークン化サポートを備えている。

実験結果

リサーチクエスチョン

  • RQ1ドメイン固有のウェブテキストで事前学習された大規模な多言語トランスフォーマー・モデルは、ボスニア語、クロアチア語、モンテネグロ語、セルビア語の NLP タスクの性能を顕著に向上させることができるか?
  • RQ2BERTić の性能は、これらの言語における品詞タギングおよび固有表現抽出において、既存の最先端モデルと比べてどの程度優れているか?
  • RQ3微調整された BERTić モデルは、文脈的な言語理解を活用して、地理的位置特定をどの程度正確に実行できるか?
  • RQ4新たに作成された COPA-HR データセットは、ターゲット言語における常識的因果推論の評価にどの程度有効であるか?
  • RQ51 つの多言語モデルは、密接に関連する南スラブ語の多様な NLP タスクの強力な基盤として効果的に機能できるか?

主な発見

  • BERTić は、全 4 言語における品詞タギングで、以前のモデルを上回る最先端の性能を達成した。
  • 固有表現抽出において顕著な改善が見られ、明確なエンティティ境界とタイプ分類能力を示した。
  • 地理的位置特定のタスクでは、BERTić が文の文脈的手がかりを活用して、従来のアプローチよりも高い正確性で地理的位置を推定した。
  • COPA-HR の導入により、クロアチア語における常識的推論の信頼性ある評価が可能になった。BERTić は、新たに導入されたベンチマークでも優れた性能を示した。
  • 評価された全タスクにおいて、BERTić は既存のベースラインを一貫して上回り、ドメイン固有の多言語コーパスにおける大規模事前学習の価値を裏付けた。
  • HuggingFace への BERTić の公開により、バルカン地域の言語文脈における NLP アプリケーションのための広範な採用とさらなる微調整が可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。