[論文レビュー] An Efficient Probabilistic Context-Free Parsing Algorithm that Computes Prefix Probabilities
この論文は、1回の左から右へのパスで接頭辞確率、部分文字列生成確率、バイテルビ解析、期待生産数を計算する、効率的なEarleyベースの確率的文脈自由文法解析アルゴリズムを提示する。文法の正規化を必要とせず、スパースな文法を効率的に処理できるように、Earleyのトップダウン制御構造を拡張し、段階的な確率計算と、文法的に不正な入力に対しても頑健な解析を可能にする。
We describe an extension of Earley's parser for stochastic context-free grammars that computes the following quantities given a stochastic context-free grammar and an input string: a) probabilities of successive prefixes being generated by the grammar; b) probabilities of substrings being generated by the nonterminals, including the entire string being generated by the grammar; c) most likely (Viterbi) parse of the string; d) posterior expected number of applications of each grammar production, as required for reestimating rule probabilities. (a) and (b) are computed incrementally in a single left-to-right pass over the input. Our algorithm compares favorably to standard bottom-up parsing methods for SCFGs in that it works efficiently on sparse grammars by making use of Earley's top-down control structure. It can process any context-free rule format without conversion to some normal form, and combines computations for (a) through (d) in a single algorithm. Finally, the algorithm has simple extensions for processing partially bracketed inputs, and for finding partial parses and their likelihoods on ungrammatical inputs.
研究の動機と目的
- 左から右への入力処理中に段階的に接頭辞確率を計算する解析アルゴリズムの開発。
- 正規形への変換を必要とせず、スパースな文法においても効率的な解析をサポートすること。
- 1つのアルゴリズム内で部分文字列確率、バイテルビ解析、期待生産数の複数の確率的解析量を統合的に計算すること。
- 部分的な括弧付けや文法的に不正な入力に対しても、単純な拡張により頑健な解析を可能にすること。
提案手法
- 前向き確率と内部確率を用いた確率的推論により、Earleyの解析フレームワークを拡張する。
- 入力を左から右へスキャンするにつれて、前向き確率を段階的に計算する。
- 予測と完了のステップを確率伝搬とともに用い、状態の確率を維持する。
- エプシロン(null)生成規則を含む、再帰を予測と完了のループで処理する。
- 外部確率を用いた後向きパスにより、期待生産数を計算する。
- 部分的な括弧付けをチャートに初期化することで、頑健な解析を可能にし、部分解析を組み立てる。
実験結果
リサーチクエスチョン
- RQ1確率的文脈自由文法の左から右への解析中に、接頭辞確率をどのように段階的に計算できるか。
- RQ2トップダウンのEarley風アルゴリズムは、文法の正規化を必要とせずに、スパースな文法を効率的に処理できるか。
- RQ3同じ解析フレームワーク内で、バイテルビ解析と期待生産数をどのように計算できるか。
- RQ4どのような拡張が、文法的に不正なか、部分的に括弧付けられた入力の解析を可能にするか。
主な発見
- アルゴリズムは、スパースな文法に対して最適な計算量を達成しつつ、1回の左から右へのパスで接頭辞確率と部分文字列生成確率を計算する。
- 完全にパrameter化された文法ではボトムアップ手法と同等の性能を達成するが、スパースな文法ではトップダウン制御のおかげでそれらを上回る。
- 文法変換を必要とせず、正確なバイテルビ解析と期待生産数の計算を実現する。
- 拡張により、部分的な括弧付けの入力の解析が可能になり、それらの部分解析とその尤度の特定が可能になる。
- 文法を正規形に変換する必要がなく、元の規則構造を保持する。
- 実験的結果から、アルゴリズムは効率的かつスケーラブルであり、入力長に対して線形に、文法サイズに対して準立方に計算量が増加することが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。