QUICK REVIEW

[论文解读] Naive Bayes and Exemplar-Based approaches to Word Sense Disambiguation Revisited

Gerard Escudero, Lluı́s Màrquez|ArXiv.org|Jul 7, 2000

Natural Language Processing Techniques参考文献 21被引用 57

一句话总结

本文重新审视了朴素贝叶斯与基于事例的学习在词义消歧（WSD）中的应用，提出一种仅包含正例的表示方法，在不损失准确率的前提下显著提升了效率。基于事例的方法结合MVDM度量和示例加权，显著优于朴素贝叶斯，尤其在丰富特征集上表现突出，其中正例基于事例（PEB）方法在使用SetB特征的广覆盖语料上达到了68.8%的准确率。

ABSTRACT

This paper describes an experimental comparison between two standard supervised learning methods, namely Naive Bayes and Exemplar-based classification, on the Word Sense Disambiguation (WSD) problem. The aim of the work is twofold. Firstly, it attempts to contribute to clarify some confusing information about the comparison between both methods appearing in the related literature. In doing so, several directions have been explored, including: testing several modifications of the basic learning algorithms and varying the feature space. Secondly, an improvement of both algorithms is proposed, in order to deal with large attribute sets. This modification, which basically consists in using only the positive information appearing in the examples, allows to improve greatly the efficiency of the methods, with no loss in accuracy. The experiments have been performed on the largest sense-tagged corpus available containing the most frequent and ambiguous English words. Results show that the Exemplar-based approach to WSD is generally superior to the Bayesian approach, especially when a specific metric for dealing with symbolic attributes is used.

研究动机与目标

解决先前文献中关于朴素贝叶斯与基于事例的WSD方法比较结果相互矛盾的问题。
在处理大规模属性集合时，提升两种方法的计算效率。
评估特征空间丰富度与度量选择对WSD性能的影响。
探究尽管存在知识获取瓶颈，监督学习方法是否仍能实现高准确率。
提出并验证一种仅正例表示方法，以在不损失准确率的前提下提升效率。

提出的方法

提出一种仅正例表示方法，仅使用训练样本中的正向属性值，舍弃负向值，以提升效率。
在基于事例的学习中应用MVDM（修正值差异度量）处理符号属性，以更好地处理分类特征。
在基于事例的分类中采用示例加权与属性加权，以提升准确率与鲁棒性。
在基于事例的学习中使用k-最近邻算法，结合汉明距离与MVDM作为相似度度量。
实现朴素贝叶斯模型，包含与不包含属性加权，并在不同特征集上比较性能。
在两个大规模词义标注语料上测试所有变体：一个15个词的子集和一个包含192,800个样本的完整191词语料。

实验结果

研究问题

RQ1当使用更丰富的特征集和更优的度量方法时，基于事例的方法是否显著优于朴素贝叶斯在词义消歧中的表现？
RQ2仅正例表示是否能显著提升朴素贝叶斯与基于事例学习的效率，同时不降低准确率？
RQ3距离度量选择（汉明距离 vs. MVDM）如何影响基于事例的WSD性能？
RQ4为何一些先前研究报道了朴素贝叶斯与基于事例方法之间的矛盾结果？
RQ5在大规模WSD中，是否存在一种计算上可行的准确率与效率之间的折衷方案？

主要发现

结合MVDM度量与示例加权的基于事例方法显著优于朴素贝叶斯，在15词子集上使用SetA特征达到70.2%的准确率。
在完整的191词语料上，正例基于事例（PEB h,7,e）方法使用SetB特征达到68.8%的准确率，优于朴素贝叶斯及其他变体。
仅正例表示将朴素贝叶斯的CPU时间减少80倍，将基于事例学习的CPU时间减少15倍，使大规模WSD成为可能。
朴素贝叶斯在从SetA到SetB的转换中并未提升准确率，表明其在处理更丰富特征集时存在局限性。
MVDM度量在处理符号属性方面优于汉明距离，但其计算成本过高，难以应用于大规模集合。
PEB h,7,e变体在使用SetB、汉明距离与示例加权时，在实际应用场景中实现了准确率与效率的最佳平衡。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。