Skip to main content
QUICK REVIEW

[論文レビュー] A Robust Parsing Algorithm For Link Grammars

Dennis Grinberg, John Lafferty|ArXiv.org|Aug 2, 1995
Natural Language Processing Techniques被引用数 86
ひとこと要約

本稿では、元の動的計画法のアプローチを、不文法的または不正な文を処理できるように、ヌルリンクを導入することで拡張した、リンク文法のロバストな解析アルゴリズムを提示する。3回の動的計画法のパスを通じてヌルリンクの数を最小化することで、ノイズが多く、会話的な英語からの文法的構造を効率的に抽出する。時間計算量は立方時間であり、文法的に不正な文が多く含まれるSwitchboardコーパスの大部分を正常に解析することに成功した。

ABSTRACT

In this paper we present a robust parsing algorithm based on the link grammar formalism for parsing natural languages. Our algorithm is a natural extension of the original dynamic programming recognition algorithm which recursively counts the number of linkages between two words in the input sentence. The modified algorithm uses the notion of a null link in order to allow a connection between any pair of adjacent words, regardless of their dictionary definitions. The algorithm proceeds by making three dynamic programming passes. In the first pass, the input is parsed using the original algorithm which enforces the constraints on links to ensure grammaticality. In the second pass, the total cost of each substring of words is computed, where cost is determined by the number of null links necessary to parse the substring. The final pass counts the total number of parses with minimal cost. All of the original pruning techniques have natural counterparts in the robust algorithm. When used together with memoization, these techniques enable the algorithm to run efficiently with cubic worst-case complexity. We have implemented these ideas and tested them by parsing the Switchboard corpus of conversational English. This corpus is comprised of approximately three million words of text, corresponding to more than 150 hours of transcribed speech collected from telephone conversations restricted to 70 different topics. Although only a small fraction of the sentences in this corpus are "grammatical" by standard criteria, the robust link grammar parser is able to extract relevant structure for a large portion of the sentences. We present the results of our experiments using this system, including the analyses of selected and random sentences from the corpus.

研究の動機と目的

  • 文法的ルールを変更せずに、不文法的でノイズの多い入力を処理できる、効率的かつロバストな解析アルゴリズムの開発。
  • 電話トランスクライブのような現実世界の会話データ—標準的な基準では文法的に正しい文がわずかにしか含まれない—の解析を可能にする。
  • 元のリンク文法形式の効率性とプルーニング技術を維持しつつ、部分的で近似的な解析を可能にするように拡張する。
  • 元の形式とアルゴリズムに最小限の変更を加えることで、純粋な文法的ロバスト解析の実現可能性を示す。

提案手法

  • 辞書定義に依存しない隣接する任意の語の間の接続を可能にするヌルリンクを導入することで、元のリンク文法の動的計画法アルゴリズムを拡張する。
  • 3回の動的計画法のパスを実行する:(1) 文法的制約を強制する通常の解析、(2) すべての部分列に対して最小コスト(ヌルリンクの数)を計算、(3) 最小コストの解析数を数える。
  • メモ化とプルーニング技術を用いることで、n語の入力に対して立方時間O(n³)の計算量を維持する。
  • 未知語に対してデフォルトの選択肢集合を用い、文脈から品詞と文法的役割を推定する。
  • 各解析に非負のコストを割り当て、完全に文法的な解析はコスト0とする。主な出力として最小コストの解析を求める。
  • ヌルリンクを用いて欠落または誤った語を補填することで、部分的な解析を可能にし、不文法的な入力でも構造的解析が可能になる。

実験結果

リサーチクエスチョン

  • RQ1純粋な文法的アプローチは、不文法的でノイズの多い会話的テキストから意味的な構造を効果的に抽出できるか?
  • RQ2元のリンク文法パーサーの効率性とプルーニング機構は、ロバストな解析拡張においても保持できるか?
  • RQ3ヌルリンクとコスト最小化は、誤り率の高い現実世界の話言語の正確な解析をどの程度可能にするか?
  • RQ4文法形式にヌルリンクを追加するという最小限の変更のみで、意味的またはドメイン固有の知識を必要とせずにロバスト性を達成できるか?

主な発見

  • ロバストなリンク文法パーサーは、標準的な基準では文法的に正しい文がわずかにしか含まれないSwitchboardコーパスの多数の文から、文法的構造を正常に抽出した。
  • メモ化とプルーニングを組み合わせた結果、アルゴリズムはn語の入力に対して立方時間O(n³)の計算量を達成し、長文の効率的解析が可能になった。
  • 実験では、未知語や不文法的構造を含む、コーパスからランダムに選択した10の文についても、最小限のヌルリンクで有効な解析を生成した。
  • システムは「toronto」や「kmarkt」といった未知語を、文脈に基づいて形容詞として正しく解釈した。これはデフォルトの選択肢メカニズムの有効性を示している。
  • 「would to be an emergency」のような文で欠落した語(例:「have」)を推論できず、誤って始めた文のモデル化もできなかった。これは、文法的穴の処理における制限を示している。
  • 制限はあったが、世界中のユーザーが公開実験できるように、http://www.cs.cmu.edu/afs/cs/project/link/www/robust.html でウェブ上で実装され、実用的価値を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。