QUICK REVIEW

[論文レビュー] Naive Bayes and Exemplar-Based approaches to Word Sense Disambiguation Revisited

Gerard Escudero, Lluı́s Màrquez|ArXiv.org|Jul 7, 2000

Natural Language Processing Techniques参考文献 21被引用数 57

ひとこと要約

本稿は、単語意味統合（WSD）のためのナイーブベイズと例示ベース学習を再検討し、正確性を損なわずに効率性を向上させるポジティブのみの表現を提案する。例示ベース手法においてMVDM度合いと例示の重み付けを用いることで、特に豊富な特徴量セットにおいてナイーブベイズを著しく上回り、ポジティブ例示ベース（PEB）手法はSetB特徴量を用いて広範囲カバレッジコーパスで68.8%の正確性を達成した。

ABSTRACT

This paper describes an experimental comparison between two standard supervised learning methods, namely Naive Bayes and Exemplar-based classification, on the Word Sense Disambiguation (WSD) problem. The aim of the work is twofold. Firstly, it attempts to contribute to clarify some confusing information about the comparison between both methods appearing in the related literature. In doing so, several directions have been explored, including: testing several modifications of the basic learning algorithms and varying the feature space. Secondly, an improvement of both algorithms is proposed, in order to deal with large attribute sets. This modification, which basically consists in using only the positive information appearing in the examples, allows to improve greatly the efficiency of the methods, with no loss in accuracy. The experiments have been performed on the largest sense-tagged corpus available containing the most frequent and ambiguous English words. Results show that the Exemplar-based approach to WSD is generally superior to the Bayesian approach, especially when a specific metric for dealing with symbolic attributes is used.

研究の動機と目的

先行文献におけるナイーブベイズと例示ベースWSD手法を比較する際の矛盾する結果を解消すること。
大規模な属性集合を扱う際の両手法の計算効率を向上させること。
特徴空間の豊かさと度合い選択がWSD性能に与える影響を評価すること。
知識獲得のボトルネックがあるにもかかわらず、教師あり学習手法が高い正確性を達成できるかを調査すること。
正確性の損失なしに効率性を向上させるポジティブのみの表現を提案・検証すること。

提案手法

訓練例からのみ正の属性値を用い、負の属性値を破棄することで効率性を向上させるポジティブのみの表現を提案する。
例示ベース学習における記号的属性の処理に、MVDM（修正値差分度合い）を適用し、カテゴリカルな特徴をより適切に扱えるようにする。
例示の重み付けと属性の重み付けを例示ベース分類に導入し、正確性と頑健性を向上させる。
例示ベース学習において、ハミング距離とMVDMを類似度度合いとして用いるk-近傍法を適用する。
属性の重み付けあり・なしの両方のナイーブベイズを実装し、異なる特徴量セットでの性能を比較する。
すべての変種を2つの大規模な意味タグ付きコーパス（15語のサブセットと、191語の完全コーパス、全192,800例）でテストする。

実験結果

リサーチクエスチョン

RQ1豊富な特徴量セットとより良い度合いを用いる場合、例示ベース手法がナイーブベイズを上回るのか？
RQ2ポジティブのみの表現が、正確性を損なわせずにナイーブベイズおよび例示ベース学習の効率性を著しく向上させられるのか？
RQ3距離度合いの選択（ハミング距離対MVDM）が例示ベースWSDの性能に与える影響は何か？
RQ4なぜ一部の先行研究ではナイーブベイズと例示ベース手法の間で矛盾する結果が報告されたのか？
RQ5大規模WSDにおいて、正確性と効率性の間で計算的に実行可能なトレードオフが存在するのか？

主な発見

MVDM度合いと例示の重み付けを用いた例示ベース手法は、ナイーブベイズを著しく上回り、SetAを用いた15語のサブセットで70.2%の正確性を達成した。
191語の完全コーパスでは、ポジティブ例示ベース（PEB h,7,e）手法がSetBを用いて68.8%の正確性を達成し、ナイーブベイズや他の変種を上回った。
ポジティブのみの表現により、ナイーブベイズのCPU時間は80倍、例示ベース学習では15倍短縮され、大規模WSDが現実可能になった。
ナイーブベイズはSetAからSetBに移行しても正確性が向上せず、より豊富な特徴量セットを扱う能力に限界があることが示された。
MVDM度合いはハミング距離よりも記号的属性に対して効果的であるが、大規模なセットでは計算コストが高すぎる。
SetB、ハミング距離、例示の重み付けを用いたPEB h,7,e変種は、現実的状況における正確性と効率性のバランスが最良である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。