Skip to main content
QUICK REVIEW

[論文レビュー] A Proposal for Word Sense Disambiguation using Conceptual Distance

Eneko Agirre, Germán Rigau|ArXiv.org|Oct 4, 1995
Natural Language Processing Techniques参考文献 9被引用数 62
ひとこと要約

本稿では、WordNetの意味的階層に基づく概念的距離を用いた、完全自動の語義意味付与手法を提案する。文脈ウィンドウ内の名詞の意味の間の意味的関連性を測る指標として『概念的密度』を計算することで、学習や手動タグ付けを一切行わず、多義名詞を意味付与する。25語の文脈ウィンドウを用いた場合、SemCor上で47.3%の正確性と83.2%のカバレッジを達成した。

ABSTRACT

This paper presents a method for the resolution of lexical ambiguity and its automatic evaluation over the Brown Corpus. The method relies on the use of the wide-coverage noun taxonomy of WordNet and the notion of conceptual distance among concepts, captured by a Conceptual Density formula developed for this purpose. This fully automatic method requires no hand coding of lexical entries, hand tagging of text nor any kind of training process. The results of the experiment have been automatically evaluated against SemCor, the sense-tagged version of the Brown Corpus.

研究の動機と目的

  • 学習や手動タグ付け、手作業で作成されたルールを一切必要としない完全自動の語義意味付与システムの開発。
  • Brownコーパスの意味タグ付き版であるSemCorコーパスを用いて、実際の制限のないテキスト上で手法の評価を行う。
  • 語の意味的曖昧性を解消するために、概念的距離を意味的関連性の指標として用いる有効性を評価する。
  • 『最も頻出する意味』やランダム推測といったベースラインヒューリスティクスと比較して、概念的密度法の性能を評価する。

提案手法

  • 語の意味をシングレット(synsets)として表現するため、広範囲の意味的分類としてWordNet 1.4を用いる。
  • 概念的密度を、WordNetの階層的構造における意味的距離の最短経路に基づいて、複数の名詞の意味の間の意味的関連性を計算する式として定義する。
  • 連続する名詞のスライディングウィンドウを用いて、ウィンドウ内に存在するすべての意味の組み合わせについて、合計の概念的密度を計算する。
  • 合計概念的密度が最大となる意味の組み合わせを選択し、それが意味付与の結果として採用される。
  • 精度とカバレッジのトレードオフを考慮し、25語の文脈ウィンドウが最適であると特定した。
  • SemCorのゴールスタンダードの意味タグと比較することで、予測された意味タグの結果を自動的に評価する。

実験結果

リサーチクエスチョン

  • RQ1WordNetの階層を用いた概念的距離は、制限のないテキストにおける語の意味を信頼性を持って意味付与できるか?
  • RQ2概念的密度法の性能は、『最も頻出する意味』やランダム推測といったベースラインヒューリスティクスと比べてどうか?
  • RQ3意味付与の正確性とカバレッジを最大化するための最適な文脈ウィンドウサイズは何か?
  • RQ4本手法は、学習や手動の介入なしに、大規模で現実世界のコーパス(SemCor)においても妥当な性能を達成できるか?

主な発見

  • 25語の文脈ウィンドウを用いた場合、多義名詞の意味付与においてSemCorで47.3%の正確性と83.2%のカバレッジを達成した。
  • 正確性は15語のウィンドウサイズでピークに達し、25語を超えてからは低下し始め、収益が減少する傾向を示した。
  • 多義名詞のカバレッジは80%を超えており、約20語のウィンドウサイズで最大値に達した。
  • 単義的名詞を含めることで、全体の正確性は66.4%に、カバレッジは88.6%に向上した。
  • 精度はほぼ同等であったが、『最も頻出する意味』ヒューリスティクスよりもカバレッジで約10%高い性能を示した。
  • ランダム推測のベースラインは30%の正確性を示しており、本手法の性能が著しく運任せの結果より優れていることを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。