Skip to main content
QUICK REVIEW

[論文レビュー] Disambiguation of Super Parts of Speech (or Supertags): Almost Parsing

Aravind K. Joshi, Srinivas Bachu|ArXiv.org|Oct 26, 1994
Natural Language Processing Techniques被引用数 28
ひとこと要約

この論文は、局所的な語彙的好みと従属関係に基づくモデルを用いて、語の最も可能性の高い基本木構造(スーパータグ)を事前に割り当てる、文法化された木付随接続文法(LTAG)のスーパータグの不確実性解消手法を提案する。この手法により、完全な解析の前段階で構文的・意味的従属関係を解消することで、『ほぼ解析』を実現する。n-gramおよび従属関係ベースのモデルを用いることで高い正確性を達成し、パーサーの探索空間を著しく削減し、文の断片の処理を効率的に行える。

ABSTRACT

In a lexicalized grammar formalism such as Lexicalized Tree-Adjoining Grammar (LTAG), each lexical item is associated with at least one elementary structure (supertag) that localizes syntactic and semantic dependencies. Thus a parser for a lexicalized grammar must search a large set of supertags to choose the right ones to combine for the parse of the sentence. We present techniques for disambiguating supertags using local information such as lexical preference and local lexical dependencies. The similarity between LTAG and Dependency grammars is exploited in the dependency model of supertag disambiguation. The performance results for various models of supertag disambiguation such as unigram, trigram and dependency-based models are presented.

研究の動機と目的

  • LTAGのような文法化された文法におけるスーパータグの不確実性解消の高い計算コストを軽減すること。
  • 局所的文脈と統計的モデルを用いて事前にスーパータグの不確実性を解消することで、パーサーの負荷を軽減すること。
  • LTAGと従属関係文法の類似性を調査し、従属関係ベースのスーパータグ不確実性解消モデルを設計すること。
  • ユニグラム、トライグラム、および従属関係ベースのモデルのスーパータグ不確実性解消における性能を評価すること。
  • スーパータグ不確実性解消が、文法化されたパーサーの一般化された事前フィルタとして機能できることを示すこと。

提案手法

  • 各語彙的要素が1つ以上の基本木(スーパータグ)に関連付けられる文法化された文法形式(LTAG)を活用し、構文的および意味的従属関係をエンコードする。
  • LTAGで解析済みのコーパス上で学習されたn-gram言語モデル(ユニグラム、トライグラム)を用い、局所的文脈に基づいて最も確率の高いスーパータグ系列を予測する。
  • スーパータグとその従属スーパータグとの間の距離の分布を活用することで、不確実性解消の正確性を向上させる従属関係ベースのモデルを導入する。
  • スーパータグ不確実性解消を、完全な解析の前段階として扱い、パーサーの実行前にスーパータグの不確実性を解消することで、『ほぼ解析』を実現する。
  • 語彙的好みと局所的な構文的従属関係に基づいて統計的モデルを用い、解析中の全探索を最小限に抑える。
  • LTAGと従属関係文法の構造的類似性を活用してスーパータグの従属関係をモデル化し、性能を向上させる。

実験結果

リサーチクエスチョン

  • RQ1局所的な統計的モデル(n-gram)が、LTAG解析におけるスーパータグの不確実性を効果的に低減できるか?
  • RQ2スーパータグ間の従属関係情報を組み込むことで、n-gramモデルと比較して不確実性解消の正確性がどの程度向上するか?
  • RQ3スーパータグ不確実性解消は、完全な解析にどの程度近づくのか?また、不完全または断片的な文の解析に使用可能か?
  • RQ4ユニグラム、トライグラム、および従属関係ベースのモデルの各タイプは、スーパータグ不確実性解消において、性能面でどのように比較されるか?
  • RQ5スーパータグ不確実性解消は、文法化された文法パーサーの一般化された事前フィルタとして機能可能か?

主な発見

  • 従属関係ベースのモデルは、ユニグラムおよびトライグラムモデルを上回る性能を示し、長距離の従属関係をモデル化することで正確性が向上することを示している。
  • n-gramモデルを用いたスーパータグ不確実性解消は高い正確性を達成し、LTAGパーサーの探索空間を著しく削減した。
  • スーパータグ不確実性解消後、パーサーは接合および置換操作のみを実行すればよく、最小限の追加作業で解析を完了できる。
  • 不確実性解消されたスーパータグ系列が単一の構造に結合できない場合でも、文の断片の解析が可能であることを示し、耐障害性を示している。
  • 従属関係情報から結合操作が一意に特定できるため、スーパータグ不確実性解消プロセスはLTAGにおいて完全な解析にほぼ等しい。
  • このアプローチは、LTAGに限らず、結合カテゴリー文法(CCG)を含む他の文法化された文法形式に対しても一般化可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。