Skip to main content
QUICK REVIEW

[论文解读] A Corpus-Based Approach for Building Semantic Lexicons

Ellen Riloff, Jessica Shepherd|ArXiv.org|Jun 10, 1997
Natural Language Processing Techniques参考文献 11被引用 161
一句话总结

本文提出一种基于语料库的自举方法,仅需少量种子词和代表性文本语料,即可自动构建领域特定的语义词典。通过分析种子名词周围的窄上下文窗口,并根据共现条件概率对词语进行排序,系统生成候选类别成员的排序列表,使用户能在10–15分钟内高效且准确地构建核心语义词典,尤其适用于代表性充分的类别。

ABSTRACT

Semantic knowledge can be a great asset to natural language processing systems, but it is usually hand-coded for each application. Although some semantic information is available in general-purpose knowledge bases such as WordNet and Cyc, many applications require domain-specific lexicons that represent words and categories for a particular topic. In this paper, we present a corpus-based method that can be used to build semantic lexicons for specific categories. The input to the system is a small set of seed words for a category and a representative text corpus. The output is a ranked list of words that are associated with the category. A user then reviews the top-ranked words and decides which ones should be entered in the semantic lexicon. In experiments with five categories, users typically found about 60 words per category in 10-15 minutes to build a core semantic lexicon.

研究动机与目标

  • 解决为领域特定自然语言处理应用手动构建语义词典的挑战。
  • 通过利用基于语料库的统计方法,减少构建准确、领域特定语义词典所需的时间和精力。
  • 开发一种可扩展的半自动方法,除少数种子词外,几乎无需初始语义知识。
  • 使用真实世界文本语料库,在多样化语义类别中评估该方法的有效性。
  • 探索该方法对种子词选择和语料代表性的敏感性。

提出的方法

  • 系统使用少量种子词(通常为5个)作为文本语料中的核心名词,识别其两侧各两个词的上下文窗口。
  • 仅从这些上下文窗口中提取名词,假设类别成员主要为名词。
  • 为每个词语计算类别得分,即其在类别上下文窗口中的频率与在语料库中总频率的比值,近似表示条件概率。
  • 该算法采用自举机制,通过在多次语料迭代中基于得分迭代优化候选词语列表。
  • 人类评审员随后从列表中选择排名靠前的词语,以形成核心语义词典,最大限度减少人工工作量。
  • 该方法仅依赖词性标注和共现统计,不使用外部语义知识库。

实验结果

研究问题

  • RQ1基于语料库的统计方法是否能在缺乏先验语义知识的情况下有效识别领域相关词语?
  • RQ2该方法在最小人工输入下构建准确语义词典的效率如何?
  • RQ3系统性能对初始种子词选择的敏感性如何?
  • RQ4语料代表性对生成词典质量的影响是什么?
  • RQ5该方法能否在多样化语义类别中可靠地区分类别成员与非成员?

主要发现

  • 用户仅需10–15分钟的人工评审,即可为每个类别构建约60个词的核心语义词典。
  • 该方法在Military(军事)、Vehicle(车辆)和Weapon(武器)等类别中表现优异,因类别成员常以列表、同位语或复合词形式频繁共现。
  • Energy(能源)和Commercial(商业)等类别表现较弱,可能因MUC-4语料库中代表性不足,凸显了语料代表性的关键作用。
  • Person(人物)类别结果参差不齐,许多非人物词语(如组织、动作)出现在前列,表明语义边界的定义存在挑战。
  • 即使仅使用五个种子词,系统仍保持稳健,且增加种子词数量带来的收益随规模扩大而递减。
  • 该方法表明,窄上下文窗口(每侧两个词)在一致性和相关性方面优于更大的窗口。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。