Skip to main content
QUICK REVIEW

[論文レビュー] Latin BERT: A Contextual Language Model for Classical Philology

David Bamman, Patrick J. Burns|arXiv (Cornell University)|Sep 21, 2020
Natural Language Processing Techniques参考文献 46被引用数 28
ひとこと要約

この論文では、紀元前200年から現代にかけての6億4270万トークンにわたるラテン語テキストを事前学習した文脈的言語モデル「Latin BERT」を紹介する。このモデルは品詞タグ付けで最先端の性能を達成し、語の意味の曖昧性解消やテキストの穴埋めを可能にするとともに、文脈的な最近傍探索を用いた意味的インフォームド検索を支援する。モデルとデータは学術的利用のために公開されている。

ABSTRACT

We present Latin BERT, a contextual language model for the Latin language, trained on 642.7 million words from a variety of sources spanning the Classical era to the 21st century. In a series of case studies, we illustrate the affordances of this language-specific model both for work in natural language processing for Latin and in using computational methods for traditional scholarship: we show that Latin BERT achieves a new state of the art for part-of-speech tagging on all three Universal Dependency datasets for Latin and can be used for predicting missing text (including critical emendations); we create a new dataset for assessing word sense disambiguation for Latin and demonstrate that Latin BERT outperforms static word embeddings; and we show that it can be used for semantically-informed search by querying contextual nearest neighbors. We publicly release trained models to help drive future work in this space.

研究の動機と目的

  • ラテン語という歴史的言語に特化した文脈的言語モデルの開発。この言語には自然言語処理のリソースが限られている。
  • ラテン語における品詞タグ付けや語の意味の曖昧性解消といった、主なNLPタスクの性能向上。
  • テクストの改訂や互文性検出といった古典学術研究の伝統的手法を支援するための計算的手法の導入。
  • ラテン語における語の意味の曖昧性解消を評価するための新しいデータセットの作成と公開。
  • 文脈的埋め込みが古典的テキストにおける意味的検索や最近傍検索にどのように有用であるかの実証。

提案手法

  • ペルセウス、インターネット・アーカイブ、パトロロギア・ラティーナなど、多様なソースからなる6億4270万トークンのラテン語テキストコーパスを用いて、BERTベースのモデルを事前学習。
  • 3つのラテン語ツリー銀行で、Universal Dependencyデータセットを微調整することで、品詞タグ付けにおいて最先端の性能を達成。
  • ルイスとショートのラテン語辞書に基づいて、語の意味の曖昧性解消の評価を目的とした新しいデータセットを構築。
  • 文脈的表現を最終BERT層からの表現を用いて、コサイン類似度を用いて意味的類似度を計算し、文脈的最近傍探索による検索を実現。
  • テキスト穴埋めタスクへの適用、特に古典的写本における欠落語や改訂語の予測を支援。
  • 研究コミュニティが再現性を確保し、さらなる開発を可能にするために、GitHubを通じて訓練済みモデル、関連コード、データを公開。

実験結果

リサーチクエスチョン

  • RQ1BERTのような文脈的言語モデルは、マルチリンガルおよびスタティック埋め込みベースラインを上回る性能で、ラテン語における品詞タグ付けで最先端の性能を達成できるか?
  • RQ2スタティック語の埋め込みと比較して、Latin BERTはラテン語における語の意味の曖昧性解消をどの程度改善できるか?
  • RQ3文脈的最近傍探索を用いた検索によって、Latin BERTは意味的に類似した語句や節をどの程度的確に特定できるか?
  • RQ4Latin BERTは、古典的写本における欠落語や改訂語の確率を推定することで、テクスト批評を支援できるか?
  • RQ5標準的なNLPタスクを超えて、文脈的埋め込みは古典的語学研究においてどのような実用的応用が可能か?

主な発見

  • Latin BERTは、すべての3つのUniversal Dependencyデータセットにおいて、ラテン語の品詞タグ付けで最先端の性能を達成し、以前のモデルを上回っている。
  • ルイスとショートのラテン語辞書に基づく新たに作成されたデータセットにおいて、語の意味の曖昧性解消の精度が顕著に向上し、スタティック語の埋め込みを上回っている。
  • Latin BERTを用いた文脈的最近傍探索により、意味的に類似した語句の検索が成功しており、たとえば「audentes fortuna iuvat」のさまざまな形態的変種のような、互文的変種も正しく特定している。
  • テキスト穴埋めタスクにおいて、意味的に関連する語句(例:「audentes」と「audaces」)の間で高いコサイン類似度スコア(例:0.834~0.837)を示しており、優れた性能を発揮している。
  • モデルの文脈的表現は、表層的形態的・構文的差異がある中でも、語彙的変異と意味的類似性を捉えている。
  • 訓練済みモデル、コード、データセットの公開により、ラテン語NLPおよびデジタル古典学分野におけるさらなる研究が促進されると期待される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。