Skip to main content
QUICK REVIEW

[論文レビュー] Integrating Multiple Knowledge Sources to Disambiguate Word Sense: An Exemplar-Based Approach

Hwee Tou Ng, Hian Beng Lee|ArXiv.org|Jun 29, 1996
Natural Language Processing Techniques被引用数 78
ひとこと要約

この論文では、品詞の品詞、語形、周辺語の集合、局所的共起語、動詞と目的語の文法的関係といった複数の知識源を統合する、例示ベースの意味解釈付き語の意味解釈(WSD)システムLexasを提示する。標準データセットおよびWordNetからの大規模な手動で意味タグ付けされたコーパス上で評価された結果、特に意味が曖昧な語において、先行研究の手法を上回る高い正確性を達成した。これは、最も頻出する意味のベースラインを上回る性能を示す、同種の最大規模の評価である。

ABSTRACT

In this paper, we present a new approach for word sense disambiguation (WSD) using an exemplar-based learning algorithm. This approach integrates a diverse set of knowledge sources to disambiguate word sense, including part of speech of neighboring words, morphological form, the unordered set of surrounding words, local collocations, and verb-object syntactic relation. We tested our WSD program, named {\sc Lexas}, on both a common data set used in previous work, as well as on a large sense-tagged corpus that we separately constructed. {\sc Lexas} achieves a higher accuracy on the common data set, and performs better than the most frequent heuristic on the highly ambiguous words in the large corpus tagged with the refined senses of {\sc WordNet}.

研究の動機と目的

  • 多様な言語的知識源を効果的に統合できる、頑健な語の意味解釈(WSD)システムの開発。
  • 標準ベンチマークをはるかに超える大規模な手動意味タグ付きコーパスにおけるWSDシステムのスケーラビリティと性能の評価。
  • 文法的・語形的・文脈的特徴を活用することで、意味が曖昧な語の正確性を向上させること。
  • 例示ベースの学習が、現実世界の大規模WSDタスクにおいて、従来のヒューリスティックベースラインを上回ることの実証。
  • 将来のWSD研究のための公開可能で大規模な意味タグ付きコーパスの提供。

提案手法

  • 各意味は、学習データから得られるプロトタイプ例示として表現される例示ベースの学習を採用。
  • 各コンテンツ語に対して、隣接語の品詞(POS)、語形、周辺語の順序なし集合、局所的共起語、動詞と目的語の文法的関係といった特徴を用いて、個別の例示ベース分類器を学習。
  • 意味割り当ての前に、WordNetの語形解析器を用いて語を基本形に正規化。
  • 分類には、記号的特徴に基づく重み付き近傍法を用いるプロトタイプベースの例示ベース学習システム(PEBL)フレームワークを採用。
  • 学習コーパスは、語の意味が事前に正しい意味にタグ付けされた文から構成され、教師あり学習を可能に。
  • 入力文脈と例示との類似度を、重み付き特徴距離メトリックを用いて計算し、最も適切な意味を選択。

実験結果

リサーチクエスチョン

  • RQ1例示ベースの学習アプローチは、語の意味解釈において、複数の言語的知識源を効果的に統合できるか?
  • RQ2大規模コーパスにおける意味が曖昧な語において、例示ベースのシステムの性能は、最も頻出する意味のヒューリスティックベースラインと比べてどうか?
  • RQ3標準ベンチマークデータセットにおいて、先行研究の手法を上回る正確性を達成できるか?
  • RQ4WSDシステムを大規模な手動意味タグ付きコーパスにスケーリングすることは可能か? 期待される性能はどの程度か?
  • RQ5文法的および語形的特徴の統合は、意味解釈の正確性を顕著に向上させるか?

主な発見

  • Lexasは、標準ベンチマークデータセットで平均87.4%の正確性を達成し、BruceとWiebeが報告した80%を上回った。
  • WordNetの12,000語の意味タグ付きの大規模な手動タグ付きコーパスにおいて、Lexasは最も頻出する意味のベースライン戦略を上回った。
  • 意味が非常に曖昧な語において、特にWordNetの洗練された意味の違いを活用した場合、優れた性能を示した。
  • これは、このような大規模な手動アノテーション付きコーパスにおけるWSDシステムの評価として、初めての知られざる評価であり、スケーラビリティと性能の新しいベンチマークを設定した。
  • 文法的関係、共起語、語形といった複数の知識源の統合が、意味解釈の正確性を顕著に向上させた。
  • 例示ベースのアプローチは、複雑または曖昧な言語的文脈において、微細な文脈パターンを効果的に捉えることができた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。