Skip to main content
QUICK REVIEW

[論文レビュー] Interleaving Syntax and Semantics in an Efficient Bottom-Up Parser

John Dowding, Robert T. Moore|ArXiv.org|Jul 5, 1994
Speech and dialogue systems被引用数 39
ひとこと要約

本稿では、限られた左文脈制約を用いて構文的曖昧さを低減するとともに、遅延された種別制約適用によって意味的曖昧さを低減することで、構文と意味をインタリーブする効率的なボトムアップパーサーを提示する。このアプローチにより、構文表のエッジ数と解析時間に桁違いの削減が達成され、言語的構造に基づいたより良い仮説の選択によって、音声認識器の精度が顕著に向上する。

ABSTRACT

We describe an efficient bottom-up parser that interleaves syntactic and semantic structure building. Two techniques are presented for reducing search by reducing local ambiguity: Limited left-context constraints are used to reduce local syntactic ambiguity, and deferred sortal-constraint application is used to reduce local semantic ambiguity. We experimentally evaluate these techniques, and show dramatic reductions in both number of chart-edges and total parsing time. The robust processing capabilities of the parser are demonstrated in its use in improving the accuracy of a speech recognizer.

研究の動機と目的

  • 構文的および意味的構造を並列に構築する効率的なボトムアップパーサーの開発。
  • ロバストな自然言語処理において完全性を損なわずに、局所的な構文的および意味的曖昧さを低減すること。
  • 文法的カバレッジが不完全な現実世界のノイズの多い音声入力において、パーサーの効率性と正確性を向上させること。
  • 言語的構造解析を音声認識に統合し、単語誤り率および発話誤り率を低減すること。

提案手法

  • パーサーは、統合に基づく文法を用いたチャートベースのパーサーであり、冗長性を避けるためにエッジを最も一般化された形で保持するボトムアップアプローチを採用する。
  • 限られた左文脈のチェックにより、文脈依存のフレーズ(例:非許可ギャップを含むもの)の構築が、事前に解析された左隣の構成要素によって予測されたものに限定される。
  • 遅延された種別制約適用により、意味的フィルタリングが構文的エッジの構築後に延期され、局所的な意味的曖昧さが低減されつつ、過剰なプリーニングが回避される。
  • 同様の親非終端記号を共有する同等の句解析を統合することで、エッジの過剰増加を最小限に抑えるパッケージングが用いられる。
  • パーサーは、Geminiスコア(フレーズ数、完全性、ルールの好みに基づく)と認識スコアを組み合わせることで、最良の仮説を選択するように音声認識器と統合される。
  • パラメータは経験的に最適化され、構文的完全性、断片数、ルールの好みの重み付き組み合わせが仮説の順位付けに用いられる。

実験結果

リサーチクエスチョン

  • RQ1限られた左文脈制約は、完全性を損なわず、ボトムアップパーサーにおける構文的曖昧さを効果的に低減できるか?
  • RQ2遅延された種別制約適用は、パーサーの効率性を損なわず、意味的曖昧さを低減できるか?
  • RQ3構文と意味をインタリーブすることで、非標準的または誤った発話のロバストな解析がどの程度向上できるか?
  • RQ4言語的構造解析の統合が、音声認識精度の向上にどの程度効果的か?

主な発見

  • パーサーは、構文表のエッジ数と合計解析時間の両方で、桁違いの削減を達成した。
  • ベースラインのボトムアップパーサーでは80%以上のエッジが構文的に不完全(例:非許可ギャップを含む)であったが、限られた左文脈技術によりこれが効果的に排除された。
  • 統合システムにより、単語誤り率は12.0%から10.7%(1.3%の改善)に、発話誤り率は19.6%から17.8%(1.8%の改善)に低下し、両者とも統計的に有意であった。
  • 22件の誤った最初の仮説のうち16件は断片数の少ないものを好む傾向によるものであり、3件は完全な文を好む傾向によるものであった。
  • 1件の修正は文法ルールの好みによるものに起因しており、これは現在のルール好みヒューリスティクスがほとんど利益をもたらさないことを示唆している。
  • 1件の誤りは誤った参照トランスクリプションに起因し、1件は断片数の多い正しい仮説を過剰にペナルティ化したことに起因しており、断片数ヒューリスティクスの改善の余地があることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。