Skip to main content
QUICK REVIEW

[論文レビュー] Creating a tagset, lexicon and guesser for a French tagger

Jean-Pierre Chanod, Pasi Tapanainen|ArXiv.org|Mar 2, 1995
Natural Language Processing Techniques参考文献 1被引用数 26
ひとこと要約

本稿では、有限状態トランスデューサーを用いて既存の解析器を新しい品詞体系に適合させるための品詞体系、語彙、語彙推定器を提示する。推定器は未知語に対して85%の完全品詞タグ付け精度を達成し、92%の語がすべて必要なタグを受け取る。これは、語彙的および綴りのパターン認識により、未知語に対して高い耐障害性を示している。

ABSTRACT

We earlier described two taggers for French, a statistical one and a constraint-based one. The two taggers have the same tokeniser and morphological analyser. In this paper, we describe aspects of this work concerned with the definition of the tagset, the building of the lexicon, derived from an existing two-level morphological analyser, and the definition of a lexical transducer for guessing unknown words.

研究の動機と目的

  • 統計的および制約ベースのタギングを両立させつつ、曖昧性を最小限に抑える、コンactで実用的なフランス語品詞体系を設計すること。
  • 既存の2段階型語彙解析器を、新しい品詞体系と整合する有限状態トランスデューサーに基づく語彙に変換すること。
  • 語彙的および綴りのパターンを用いて、未知語に品詞タグを正確に割り当てる語彙推定器を開発すること。
  • 特に初期大文字、綴りの誤り、合成語を含む、語彙外語に対する推定器の性能を評価すること。
  • 品詞体系、語彙、および推定器の間の互換性を確保し、必要に応じてタギング後に細かい区別(例:時制、態)を解消できるようにすること。

提案手法

  • 統計的タガーアルゴリズムの性能向上を目的に、時制や態といった明確に識別できない区別を統合し、88種類のタグからなる品詞体系を定義した。
  • 既存の2段階型語彙解析器を再利用し、新しい品詞体系と整合させるためのマッピングルールを用いて、有限状態トランスデューサーに基づく語彙に変換した。
  • 接頭辞、接尾辞、内部構造、綴り的特徴(例:ア撇、ダッシュ、大文字)を分析することで、語形を検査する語彙推定器を設計した。
  • 新聞コーパス内の未知語に推定器を適用し、語彙的妥当性に基づいてタグを分類し、語の基本形と整合しないものを除外した。
  • 2段階評価を実施:まず初期大文字の未知語(仮に固有名詞)を対象とし、次に小文字の未知語を対象とし、タグ割り当ての完全性と正確性を評価した。
  • 助詞、接続詞などの閉形式語を、ベース語彙によって完全にカバーするものとし、誤りを避けるために推定器のヒューリスティクスから除外した。

実験結果

リサーチクエスチョン

  • RQ1どのようにして、統計的および制約ベースのタギングを両立させつつ、曖昧性を最小限に抑えるコンパクトで効果的なフランス語品詞体系を設計できるか?
  • RQ2既存の2段階型語彙解析器を、新しい品詞体系と互換性を持つ有限状態トランスデューサーに基づく語彙にどの程度変換できるか?
  • RQ3語彙的および綴りのパターンに基づく推定器は、未知のフランス語語に正確な品詞タグをどの程度正確に割り当てられるか?
  • RQ4推定器の主な失敗モードは何か?また、綴りの誤り、閉形式語、外国語の借用語とどのように関係しているか?
  • RQ5タガーがそれらを解消できない場合でも、後続段階での語彙照合により、時制や態といった重要な区別を保持できるか?

主な発見

  • 推定器は、すべての未知語の85%を完全な正確性(必要なすべてのタグが付与され、不要なタグはなし)で正しくタグ付けした。これは、語彙外語に対する高い耐障害性を示している。
  • 小文字の未知語では、86%がすべて必要なタグを受け取り、70%が不要なタグを受けていなかった。これは、語彙的推論における高い正確性を示している。
  • 初期大文字の未知語は95%以上の正確度で固有名詞として正しくタグ付けされた。誤りの主な原因は外国語や擬音語であった。
  • 欠落したタグの大多数(合計118個)は、名詞や過去分詞形として正しくタグ付けされた語に対する形容詞タグであった。これは、重複する文法的役割がその誤りの影響を軽減していることを示している。
  • 推定器の主な課題は、綴りの誤りのある不規則動詞(例:constuit)、外国語(例:at, born, levantarse)、および最初の語に複数形が付く合成名詞(例:rencontres-télé)であった。
  • 本システムでは、タガーが区別できない場合でも、追加の語彙照合により、時制や態といった細かい区別を後続段階で解消できるため、情報の損失を防げる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。