Skip to main content
QUICK REVIEW

[論文レビュー] Three New Probabilistic Models for Dependency Parsing: An Exploration

Jason Eisner|ArXiv.org|Jun 6, 1997
Natural Language Processing Techniques参考文献 14被引用数 165
ひとこと要約

本稿では、語彙主義的枠組み内での依存構文解析のための3つの新しい確率的モデルを提案する:(1) 語のペアに対する好みに基づく語彙的親和性モデル、(2) 選択的好みのランダムな変動をモデル化する意味タグ付けモデル、(3) 発話者が聞き手の解釈とは独立して文法的構造を構築する生成モデル。主な発見は、生成モデル(モデルC)がウォール・ストリート・ジャーナルデータ上で、78.1%のアタッチメント正答率を達成し、他のモデルを著しく上回る解析精度を示したことである。また、品詞タグ付けにおいても競争力のある性能を示した。

ABSTRACT

After presenting a novel O(n^3) parsing algorithm for dependency grammar, we develop three contrasting ways to stochasticize it. We propose (a) a lexical affinity model where words struggle to modify each other, (b) a sense tagging model where words fluctuate randomly in their selectional preferences, and (c) a generative model where the speaker fleshes out each word's syntactic and conceptual structure without regard to the implications for the hearer. We also give preliminary empirical results from evaluating the three models' parsing performance on annotated Wall Street Journal training text (derived from the Penn Treebank). In these results, the generative (i.e., top-down) model performs significantly better than the others, and does about equally well at assigning part-of-speech tags.

研究の動機と目的

  • 語彙的情報を言語的に意味のある方法で組み込む3つの異なる確率的モデルを考案・評価すること。
  • 実世界のテキストにおける解析性能を高めるために、話者中心の確率的文法モデルと聞き手中心の確率的文法モデルのどちらが優れているかを調査すること。
  • 手書きの文法を必要とせず、確率的モデルをサポートする柔軟で効率的な依存文法用の解析アルゴリズムを提供すること。
  • 語彙的および文法的好みが文の構造に果たす役割、特に準拠語の制約と語レベルの依存関係との関係を評価すること。
  • ペン・ツリー・バンクを基にしたウォール・ストリート・ジャーナルコーパス上で学習されたモデルの間で、アタッチメント正答率と品詞タグ付けの観点から解析性能を比較すること。

提案手法

  • 確率的モデルに対する効率的な推論を可能にする、$O(n^3)$の新しい依存文法用の解析アルゴリズムを提案する。
  • ビグラム品詞確率と語固有のアタッチメント好みに基づくモデルA(語彙的親和性)を構築し、語どうしが互いに修飾しようとする「苦闘」をモデル化する。
  • 選択的好みのランダムな変動をモデル化するモデルB(意味タグ付け)を導入し、それを確率的選択として扱う。
  • 話者が聞き手の解釈とは独立して文法的および概念的構造を構築するモデルC(生成モデル)を設計する。
  • 依存構造を$Pr(\text{リンク} \mid \text{語, 品詞})$として条件付き確率フレームワークでモデル化し、各モデルごとに異なるパrameterizationを採用する。
  • 最大尤度推定を用い、低頻度イベントにはバックオフを適用して、ウォール・ストリート・ジャーナルコーパスのサブセット(4772文、93,360語)上で全モデルを学習する。

実験結果

リサーチクエスチョン

  • RQ1確率的依存構文解析を、語彙的感受性と言語的解釈可能性を保ちつつ、効果的に確率的化できるか?
  • RQ2具体的には、聞き手中心のモデルと話者中心のモデルという確率空間の仮定の違いが、解析性能にどのように影響するか?
  • RQ3準拠語の好みや語彙的親和性は、編集済みの書記文における正確な依存構文解析にどの程度寄与するか?
  • RQ4聞き手の影響を無視する生成モデルでさえ、相互適合性や選択的好みに基づくモデルを上回る性能を示せるか?
  • RQ5タグn-gramに依存するか、語彙的依存関係を無視するベースラインモデルと比較して、完全に語彙主義的なモデルの性能はどの程度か?

主な発見

  • モデルC(生成モデル)は、句読点を除くトークンに対して78.1%の依存アタッチメント正答率を達成し、モデルA(75.9%)、モデルB(72.8%)、モデルC′(66.6%)を著しく上回った。
  • モデルCは品詞タグ付けでも90.8%の正答率を達成し、モデルB(89.8%)を上回り、最も性能の良いモデル(X)のベースライン91.0%に近い水準であった。
  • 語彙的依存関係を無視し、タグに基づく依存関係のみを用いるモデルC′は、66.6%のアタッチメント正答率にとどまり、語彙情報が解析精度にとって不可欠であることを示した。
  • 選択的好みのランダムな変動をモデル化するモデルBは、全体として最も成績が悪く、特に動詞では63.1%の正答率にとどまり、このような確率的変動が現実の文法的傾向を反映していない可能性を示唆した。
  • 結果から、特に特定の語が特定の文法的役割を選択する傾向(準拠語の好み)が、文の構造に大きな役割を果たしていることが明らかになった。これは、モデルCの優れた性能が裏付けられている。
  • 冠詞を次の語に、前置詞を前の語に接続するという単純なヒューリスティクスに基づくベースライン解析器は79.8%のタグ付け正答率を示したが、これは単純なヒューリスティクスでも高い性能を発揮できることを示している。しかし、モデルCは依然として解析精度でそれを上回った。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。