Skip to main content
QUICK REVIEW

[論文レビュー] Comlex Syntax: Building a Computational Lexicon

Ralph Grishman, Catherine Macleod|ArXiv.org|Nov 10, 1994
Speech and dialogue systems被引用数 45
ひとこと要約

Comlex Syntax は、約38,000語の英語の語頭語を豊富な句法学的特徴(細分化された他動詞の格助詞と制御タイプ(主語、目的語、任意、変数)を含む)を備えた理論に依存しない計算的語彙を提供する。Lisp風のネストされた特徴-値表記法を用い、二重アノテーション、コーパス拡張、誤り分析を通じて正確性を検証し、重要ケースにおいては補語の1%しか漏れなかった高完全性を達成した。

ABSTRACT

We describe the design of Comlex Syntax, a computational lexicon providing detailed syntactic information for approximately 38,000 English headwords. We consider the types of errors which arise in creating such a lexicon, and how such errors can be measured and controlled.

研究の動機と目的

  • 英語語彙の適度なカバー範囲を備え、計算的に利用可能な豊富な句法学的特徴を有する語彙の開発。
  • OALD や LDOCE のような商業的辞書を超える、詳細な他動詞フレーム情報の提供。
  • 二重アノテーションとコーパスベースの検証により、特徴割り当ての誤りを最小限に抑える。
  • 理論に依存しない拡張可能な特徴表現を提供することで、多様な自然言語処理システムを支援する。

提案手法

  • 各語彙エントリに対して、ネストされた特徴-値ペアを表現するLisp風の括弧付きリスト表記法を用いる。
  • タイプ化された特徴構造を介して句法学的特徴(他動詞の格助詞(subc)と文法的機能(gs)フレーム)を符号化する。
  • 構成要素構造(cs)、文法的構造(gs)、特徴、および例文を含むフレームを定義する。
  • 他動詞フレーム内に、主語、目的語、変数、任意の制御の4種類の制御タイプを定義する。
  • 高頻度動詞を複数のアノテーターが独立して処理し、結果を比較することで正確性を検証する。
  • 多様なテキストタイプ(新聞、科学的要約、文学的作品など)を含む訓練コーパスの拡張により、特徴の一般化を向上させる。

実験結果

リサーチクエスチョン

  • RQ1計算的語彙は、英語語彙の他動詞フレームと制御特徴のアノテーションにおいて、どのように高い完全性を達成できるか?
  • RQ2手作業による特徴アノテーションで一般的に生じる誤りの種類は何か?また、それらはどのように測定され、制御されるか?
  • RQ3コーパスベースの例文は、まれな語や曖昧な語の特徴割り当ての信頼性をどの程度向上させるか?
  • RQ4Comlex Syntax の特徴セットは、OALD や LDOCE のような商業的辞書と比べて、詳細さとカバー範囲でどの程度異なるか?
  • RQ5理論に依存しない特徴表現は、多様なNLPアプリケーションをサポートしつつ、高い正確性を維持できるか?

主な発見

  • 語彙には約38,000語の語頭語が含まれ、動詞には15の他動詞フレーム、形容詞には14、名詞には4の特徴が含まれる。
  • 重要なケースにおいては補語が1%しか漏れず、そのうち1件のみが文解析能力に影響を与えた。
  • 誤り分析により、8%の特徴が欠落しており、1%が余分に付加されていた。また、「j」動詞系列では2–6%のエントリで誤った特徴が発生した。
  • 曖昧な特徴(文脈に依存して受容性が変化するもの)が一般的であり、特に「dead」のような形容詞が比較構文で顕著であった。
  • ブラウンコーパスおよび追加のソースを含むコーパス拡張戦略により、特徴の信頼性が向上し、将来のタギング作業を支援した。
  • ブラウンコーパスの予備的タギングを計画しており、WordNetの意味タグと照合する。1動詞あたり少なくとも250件の例文を想定している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。