QUICK REVIEW

[論文レビュー] Can Subcategorisation Probabilities Help a Statistical Parser?

John A. Carroll, Guido Minnen|arXiv (Cornell University)|Jun 21, 1998

Natural Language Processing Techniques参考文献 32被引用数 56

ひとこと要約

この論文は、1000万語のコーパスから得た格助詞頻度データが統計的パーサーの精度を向上させることを調査している。語彙的確率文法に格助詞確率を組み込んだことで、文法的関係の回復が著しく向上し、パースエラーが減少し、テストコーパスの構造的分布とよりよく一致するようになった。

ABSTRACT

Research into the automatic acquisition of lexical information from corpora is starting to produce large-scale computational lexicons containing data on the relative frequencies of subcategorisation alternatives for individual verbal predicates. However, the empirical question of whether this type of frequency information can in practice improve the accuracy of a statistical parser has not yet been answered. In this paper we describe an experiment with a wide-coverage statistical grammar and parser for English and subcategorisation frequencies acquired from ten million words of text which shows that this information can significantly improve parse accuracy.

研究の動機と目的

大規模コーパスからの格助詞頻度データが統計的パーサーのパフォーマンスを向上させることを評価すること。
語彙的確率文法に格助詞頻度を組み込むことで、パース精度に測定可能な向上が得られるかどうかという未解決の実証的問いに答えること。
英国Nationalコーパス（British National Corpus）から得た格助詞頻度データを、既存の広域カバレッジ統計的パーサーに統合すること。
格助詞確率が文法的関係の回復および構造的正確性に与える影響を評価すること。

提案手法

本研究は、カーロルとブリスコー（1996）が開発した語彙的確率文法に基づく広域カバレッジ統計的パーサーを用いる。
動詞の格助詞頻度は、英国Nationalコーパスの1000万語分のデータを用い、堅牢な統計的パーサーと格助詞クラス分類器を用いて取得した。
パーサーは、コーパスから得た格助詞確率を組み込むことで拡張され、語彙的頻度データに基づいて句構造の順位付けが可能になった。
500文のテストコーパス（多様なジャンルにわたる）を用いて、ベースラインバージョンと語彙的パーサーの両方を評価した。
文法的関係をベースラインと語彙的パーサーの出力から抽出し、正確性の向上を測定した。
誤りのタイプごとに分類し、検討するための定性的誤り分析を実施した。誤りのタイプには、補語構造、修飾、並列構造、文章的付加語、誤括弧付けが含まれる。

実験結果

リサーチクエスチョン

RQ1大規模コーパスからの格助詞頻度データは、文法的関係を回復する統計的パーサーの精度を向上させることができるか？
RQ2格助詞確率を組み込むことで、ベースラインと比較してパーサーの句構造モデル化能力にどのような影響があるか？
RQ3格助詞頻度情報の統合によって、どのタイプのパース誤りが最も影響を受けるか？
RQ4語彙的パーサーは、テストコーパスで観察された構造的分布をどの程度よく再現しているか？

主な発見

語彙的パーサーは、ベースラインパーサーと比較して文法的関係誤りを15.8％削減した。補語構造誤りは語彙的パーサーで124件、ベースラインで144件であった。
語彙的パーサーの平均文法的関係数は1文あたり4.15であり、テストコーパスの平均4.15とよく一致しており、現実のデータ分布とよりよく一致していることを示している。
ベースラインパーサーは1文あたり平均4.65の文法的関係を生成しており、コーパスに存在しない関係の系統的過剰生成を示している。
補語構造誤りが最も頻度が高く、語彙的パーサーで124件の誤りがあり、そのうち115件が動詞的誤りで、受動態から能動態への誤解析が含まれていた。
本システムは、合成動詞と並列な動詞句頭部の処理に特に困難を示しており、現在のVSUBCAT値から格助詞クラスへのマッピングではネストされた合成動詞構造を処理できないことが原因であった。
定性的分析の結果、134件の修飾誤りのうち20件が、PPが意図したNPではなくより上のVPに誤ってアタッチされていたものであり、30件の文章的付加語誤りのうち8件が、句読点で区切られた節的付加語が低くアタッチされていたものであった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。