Skip to main content
QUICK REVIEW

[论文解读] A Proposal for Word Sense Disambiguation using Conceptual Distance

Eneko Agirre, Germán Rigau|ArXiv.org|Oct 4, 1995
Natural Language Processing Techniques参考文献 9被引用 62
一句话总结

本文提出一种基于 WordNet 语义层次结构的语义距离的全自动词义消歧方法。它通过计算概念密度——即在上下文窗口内名词词义之间的语义相关性度量——来消歧多义名词,无需训练或人工标注,使用 25 个词的上下文窗口在 SemCor 上实现了 47.3% 的精确率和 83.2% 的覆盖率。

ABSTRACT

This paper presents a method for the resolution of lexical ambiguity and its automatic evaluation over the Brown Corpus. The method relies on the use of the wide-coverage noun taxonomy of WordNet and the notion of conceptual distance among concepts, captured by a Conceptual Density formula developed for this purpose. This fully automatic method requires no hand coding of lexical entries, hand tagging of text nor any kind of training process. The results of the experiment have been automatically evaluated against SemCor, the sense-tagged version of the Brown Corpus.

研究动机与目标

  • 开发一种完全自动化的词义消歧系统,无需训练、人工标注或手工编码规则。
  • 在真实、无限制的文本上使用 SemCor 语料库(布朗语料库的词义标注版本)评估该方法。
  • 评估语义相关性度量中的语义距离在解决词汇歧义方面的有效性。
  • 将概念密度方法的性能与基线启发式方法(如‘最常见词义’和随机猜测)进行比较。

提出的方法

  • 使用 WordNet 1.4 作为广覆盖的语义分类体系,将词义表示为同义词集(synsets)。
  • 将概念密度定义为一个公式,基于 WordNet 层次结构中词义之间的最短路径距离,计算一组名词词义之间的语义相关性。
  • 应用滑动窗口技术,对连续名词序列计算窗口内所有可能词义组合的总概念密度。
  • 选择使总概念密度最大的词义组合作为消歧结果。
  • 基于精确率与覆盖率之间的权衡,将上下文窗口大小设为 25 个词为最优。
  • 通过将预测的词义标签与 SemCor 中的黄金标准词义标签进行比较,自动评估结果。

实验结果

研究问题

  • RQ1通过 WordNet 层次结构测量的语义距离是否能可靠地在无限制文本中消歧词义?
  • RQ2概念密度方法的性能与基线启发式方法(如‘最常见词义’和随机猜测)相比如何?
  • RQ3为最大化消歧精确率和覆盖率,最优的上下文窗口大小是多少?
  • RQ4该方法是否能在无需任何训练或人工干预的情况下,在大规模真实语料库(如 SemCor)上实现合理性能?

主要发现

  • 当使用 25 个词的上下文窗口时,该方法在 SemCor 中多义名词上的精确率为 47.3%,覆盖率达到了 83.2%。
  • 精确率在窗口大小为 15 时达到峰值,并在超过 25 个词后开始下降,表明更大上下文带来的收益递减。
  • 多义名词的覆盖率超过 80%,并在窗口大小约为 20 时达到最大值。
  • 若包含单义名词,整体精确率提升至 66.4%,覆盖率提升至 88.6%。
  • 尽管精确率相近,该方法在覆盖率上比‘最常见词义’启发式方法高出近 10%。
  • 随机猜测基线的精确率为 30%,证实该方法的性能显著高于随机水平。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。