[論文レビュー] Parsing English with a Link Grammar
この論文は、辞書で定義されたコネクタ要件に基づき、非交差で平面的なリンクによって語の間の句構造をモデル化する、英語の解析のための形式的体系「リンク文法」を導入する。このアプローチは立方時間オーダーの効率的アルゴリズムを用いて、単語の一致、複雑な動詞、埋め込み節といった英語文法現象を広くカバーする実用的性能を示している。
We develop a formal grammatical system called a link grammar, show how English grammar can be encoded in such a system, and give algorithms for efficiently parsing with a link grammar. Although the expressive power of link grammars is equivalent to that of context free grammars, encoding natural language grammars appears to be much easier with the new system. We have written a program for general link parsing and written a link grammar for the English language. The performance of this preliminary system -- both in the breadth of English phenomena that it captures and in the computational resources used -- indicates that the approach may have practical uses as well as linguistic significance. Our program is written in C and may be obtained through the internet.
研究の動機と目的
- 自然言語の句構造を、非交差で平面的なリンクによって形式的文法体系として捉えること。
- 従来の文脈自由文法よりも、リンク文法が複雑な英語文法現象をより簡単に表現できることを示すこと。
- すべての有効なリンク接続を網羅的に探索できる、効率的なパーサーの設計と実装。
- リンク文法の実用的有用性を、計算効率と自然言語現象のカバレッジの観点から評価すること。
提案手法
- 各語にコネクタ要件を関連付ける辞書を用い、コネクタ(例:D+、S-)は方向性を持つ構文的依存関係を指定する。
- 平面性、連結性、充足性の制約を適用して有効なリンク接続(すべての語を接続し、各語のコネクタ要件を満たす非交差リンクの集合)を定義する。
- 与えられた文に対して、すべての可能なリンク接続を網羅的に探索する立方時間オーダー(O(n³))のパーサーを用いる。
- アンド(&)、排他的論理和(or)、コネクタ方向指定子(+/-)を用いた、コンactなコンピュータ読み取り可能な記法でリンク文法規則を表現する。
- 開始生成規則、エプシロン生成規則、一般生成規則を含む体系的構成により、リンク文法を同等の文脈自由文法に変換する。
- データ構造とヒューリスティクスを用いてパーサーの性能を最適化し、一般的な新聞文の高速処理を可能にする。
実験結果
リサーチクエスチョン
- RQ1非交差でコネクタに基づく形式的体系、たとえばリンク文法は、英語文の句構造を効果的にモデル化できるか?
- RQ2リンク文法の表現力は、自然言語現象を捉える観点で、文脈自由文法と比べてどうか?
- RQ3すべての有効なリンク接続を網羅的に探索できる、O(n³)の効率的パーサーをリンク文法用に設計できるか?
- RQ4リンク文法は、一致、分詞、関係節、埋め込み構造といった複雑な文法現象をどの程度正確に表現できるか?
- RQ5リンク文法アプローチは、実世界の自然言語処理アプリケーションに適した実用的パーサー性能を達成できるか?
主な発見
- リンク文法形式的体系は、名詞動詞一致、複雑な動詞、疑問文、命令文、分詞、関係節といった広範な英語の句構造現象を的確に捉えている。
- パーサーはO(n³)時間で動作し、一般的な新聞文を数秒で処理するため、実用的な計算効率を示している。
- システムは網羅的パースをサポートしており、与えられた文に対してすべての有効なリンク接続を発見でき、堅牢な構文解析を可能にする。
- 体系的変換により、リンク文法は文脈自由文法と表現力において同等であることが証明されており、形式的に同等である。
- 言語的表現力と計算の実行可能性のバランスをとったアプローチであり、700ルールの文法が広範な文法的複雑性をカバーしている。
- ANSI-Cで実装された実装はインターネット経由で公開されており、拡張性と実用的導入を可能としている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。