Skip to main content
QUICK REVIEW

[论文解读] "Roget's Thesaurus" as a lexical resource for natural language processing

Mario Jarmasz|arXiv (Cornell University)|Jan 1, 2003
Natural Language Processing Techniques参考文献 47被引用 53
一句话总结

本文首次实现了罗吉斯词典(1987年平装版)的完整电子化,将其转化为自然语言处理(NLP)可处理的词汇资源。研究展示了罗吉斯词典在计算语义相似度和构建词汇链方面的有效性,其在基准测试中表现优于其他系统,并可与WordNet集成。

ABSTRACT

This dissertation presents an implementation of an electronic lexical knowledge base that uses the 1987 Penguin edition of Roget's Thesaurus as the source for its lexical material---the first implementation of a computerized Roget's to use an entire current edition. It explains the steps necessary for taking a machine-readable file and transforming it into a tractable system. Roget's organization is studied in detail and contrasted with WordNet's. We show two applications of the computerized Thesaurus: computing semantic similarity between words and phrases, and building lexical chains in a text. The experiments are performed using well-known benchmarks and the results are compared to those of other systems that use Roget's, WordNet and statistical techniques. Roget's has turned out to be an excellent resource for measuring semantic similarity; lexical chains are easily built but more difficult to evaluate. We also explain ways in which Roget's Thesaurus and WordNet can be combined.

研究动机与目标

  • 利用1987年平装版罗吉斯词典创建一个完整、机器可读的词汇知识库。
  • 评估罗吉斯词典作为WordNet在语义相似度与词汇链构建方面可行替代方案的潜力。
  • 在标准基准测试中,将本系统与基于罗吉斯词典、WordNet及统计方法的系统进行性能比较。
  • 探索将罗吉斯词典与WordNet结合的集成技术,以增强词汇资源。

提出的方法

  • 将1987年平装版罗吉斯词典转换为适合计算处理的机器可读格式。
  • 将罗吉斯的层级类别体系映射为结构化、可查询的知识库。
  • 实现基于罗吉斯分类体系中类别接近度的算法,以计算词语和短语之间的语义相似度。
  • 通过罗吉斯体系中的语义类别,将文本中的内容词链接起来,构建词汇链。
  • 使用既定基准测试评估系统,并与WordNet及统计模型的结果进行比较。
  • 设计并测试将罗吉斯词典与WordNet结合的方法,以整合两种词汇资源的优势。

实验结果

研究问题

  • RQ1罗吉斯词典在自然语言处理任务中作为语义相似度度量的词汇资源,其有效性如何?
  • RQ2能否基于罗吉斯的类别组织方式可靠地构建词汇链?
  • RQ3在语义相似度与词汇链任务中,罗吉斯词典、WordNet与统计方法的性能表现如何比较?
  • RQ4评估基于罗吉斯词典构建的词汇链时,面临的主要挑战是什么?
  • RQ5如何有效结合罗吉斯词典与WordNet,以提升词汇表征质量?

主要发现

  • 罗吉斯词典在语义相似度度量方面表现极佳,在基准测试中优于其他系统。
  • 成功利用罗吉斯的类别体系构建了词汇链,但其质量评估比预期更具挑战性。
  • 在语义相似度任务中,本系统与WordNet及统计基线相比表现出具有竞争力的结果。
  • 罗吉斯的层级结构支持稳健的语义分组,有效促进词语与短语的比较。
  • 成功演示了罗吉斯词典与WordNet的集成技术,表明混合词汇资源具有潜力。
  • 1987年平装版罗吉斯词典的完整电子化实现,标志着其在计算语言学领域应用的重要进展。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。