Skip to main content
QUICK REVIEW

[論文レビュー] Nefnir: A high accuracy lemmatizer for Icelandic

Svanhvít Lilja Ingólfsdóttir, Hrafn Loftsson|arXiv (Cornell University)|Jul 27, 2019
Natural Language Processing Techniques被引用数 6
ひとこと要約

Nefnir は、大規模なアイスランド語活用形データベース(DMII)から抽出された接尾語置換規則を用いた、高精度でオープンソースのアイスランド語語彙素還元器であり、正しく品詞品詞を付与したテキストで 99.55%、自動的に付与された品詞を用いたテキストで 96.88% の精度を達成し、以前のアイスランド語語彙素還元器を上回っている。

ABSTRACT

Lemmatization, finding the basic morphological form of a word in a corpus, is an important step in many natural language processing tasks when working with morphologically rich languages. We describe and evaluate Nefnir, a new open source lemmatizer for Icelandic. Nefnir uses suffix substitution rules, derived from a large morphological database, to lemmatize tagged text. Evaluation shows that for correctly tagged text, Nefnir obtains an accuracy of 99.55%, and for text tagged with a PoS tagger, the accuracy obtained is 96.88%.

研究の動機と目的

  • アイスランド語の豊富な屈曲的態様を扱える高精度な語彙素還元器の開発。
  • より小さなコーパスではなく、大規模で包括的な形態素データベースを活用することで、以前のツールよりも語彙素還元の精度を向上させること。
  • 手動および自動で品詞を付与したテキストの両方で良好に動作するオープンソースの語彙素還元器の作成。
  • 語彙外語(OOV)語、外国語、固有名詞などの課題に対して、DMII からのルールベースの一般化によって対処すること。

提案手法

  • 580万以上の屈曲形を含む、DMII と呼ばれる形態素データベースから接尾語置換規則を抽出する。
  • 最も長い共通接尾語と品詞タグの一致に基づいて、規則を適用して語形を語彙素に還元する。
  • DMII のタグとアイスランド語品詞タガーラーが使用するタグを一致させるために、中間タグセットを介してタグセット間の変換を行う。
  • 残存する誤りを最小限に抑えるために反復的に規則を生成し、各規則が少なくとも2つの誤りを是正することを保証する。
  • 訓練データを、約4,500語の非屈曲語(例:副詞、前置詞)および略語の手作業で選別されたリストで補完する。
  • 語彙レベルの記憶に依存するのではなく、形態的パターンに注目することで過学習を回避するルールベースのアプローチを採用する。

実験結果

リサーチクエスチョン

  • RQ1大規模な形態素データベースで学習した語彙素還元器は、より小さなコーパスで学習したものよりも、アイスランド語で高い精度を達成できるか?
  • RQ2品詞タグが手動で修正された場合と自動生成された場合とで、語彙素還元の精度はどのように変化するか?
  • RQ3接尾語置換規則は、語彙外語(OOV)語、複合語、新語に対し、どの程度効果的に対処できるか?
  • RQ4アイスランド語語彙素還元における主な誤りカテゴリは何か? また、ゴールドスタンダード入力と自動付与入力の間でそれらはどのように異なるか?
  • RQ5アイスランド語のような形態的豊富な言語では、ルールベースの語彙素還元がハイブリッドまたは機械学習ベースのアプローチを上回ることができるか?

主な発見

  • 正しく品詞を付与したテキストにおいて、Nefnir は21,093語の参照コーパスに基づき、語彙素還元精度が99.55%に達している。
  • IceTagger を用いて自動的に品詞を付与したテキストでは、Nefnir は96.88%の精度を達成しており、ゴールドスタンダードタグと比較して658件の誤りが生じたのに対し、ゴールドスタンダードでは94件の誤りにとどまっている。
  • 正しくタグ付けされたデータにおける最も一般的な誤りカテゴリは、外来語および固有名詞であり、特にクリティック化された定冠詞を含むものが多い。
  • 自動的にタグ付けされた入力におけるタグ付け誤りが、語彙素還元誤りの主な原因となっており、例えば複数形与格形が誤って分類されることがある。
  • 高い精度は、主に DMII データベースの豊富さとカバー範囲に起因しており、これは希少語や複合語に対しても効果的な一般化を可能にしている。
  • Nefnir は、DMII ラックアップを用いた Lemmald や CST 語彙素還元器と比較して、同等のテストセットにおいてより高い精度を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。