Skip to main content
QUICK REVIEW

[论文解读] Foreground and Background Lexicons and Word Sense Disambiguation for Information Extraction

Adam Kilgarriff|arXiv (Cornell University)|Dec 23, 1997
Natural Language Processing Techniques参考文献 26被引用 22
一句话总结

本文提出一种用于信息抽取(IE)的两级词典架构,区分手动整理的前景词典(用于领域特定的关键术语)与自动推导的背景词典(用于通用词汇)。其论点为:前景词义消歧(WSD)通过解释中的语义一致性实现,而背景WSD则利用语料库的统计方法,显著提升IE准确率,且人工干预极少。

ABSTRACT

Lexicon acquisition from machine-readable dictionaries and corpora is currently a dynamic field of research, yet it is often not clear how lexical information so acquired can be used, or how it relates to structured meaning representations. In this paper I look at this issue in relation to Information Extraction (hereafter IE), and one subtask for which both lexical and general knowledge are required, Word Sense Disambiguation (WSD). The analysis is based on the widely-used, but little-discussed distinction between an IE system's foreground lexicon, containing the domain's key terms which map onto the database fields of the output formalism, and the background lexicon, containing the remainder of the vocabulary. For the foreground lexicon, human lexicography is required. For the background lexicon, automatic acquisition is appropriate. For the foreground lexicon, WSD will occur as a by-product of finding a coherent semantic interpretation of the input. WSD techniques as discussed in recent literature are suited only to the background lexicon. Once the foreground/background distinction is developed, there is a match between what is possible, given the state of the art in WSD, and what is required, for high-quality IE.

研究动机与目标

  • 解决在信息抽取(IE)系统中整合词汇语义与领域特定模板的挑战。
  • 明确定义前景词典(包含映射到数据库字段或模板的领域关键术语)与背景词典(涵盖具有浅层语义的通用词汇)之间的区别。
  • 通过仅将人工输入限制在最关键的术语上,同时利用自动化方法处理其余部分,减轻人工词典编纂的负担。
  • 使词义消歧策略与前景与背景词典的各自角色相匹配,确保在可行人工投入下实现高质量的IE输出。
  • 证明该两级方法既实用又有效,且得到现有IE系统与NLP工具的支持。

提出的方法

  • 将前景词典定义为人工精心整理的资源,将关键领域术语(例如在企业继任语境中的“sacked”)映射到IE系统中的特定数据库字段或模板。
  • 利用统计WSD、基于偏好的规则和语料分析等自动化方法,从机器可读词典和领域特定语料中构建背景词典。
  • 使用统计WSD算法(如Yarowsky, 1995;Brill)对背景词典进行粗粒度消歧,依赖句法和搭配模式。
  • 利用语义标注和已解析语料支持词典编纂工作,通过语言学和语义特征实现词义的搜索与标注。
  • 集成NLP工具(如共现分析器、语义标注系统和词典优化算法)以辅助构建和优化两个词典层级。
  • 实施一个处理流程:背景WSD先于前景解释进行,为在一致语义结构中消歧关键术语提供上下文基础。

实验结果

研究问题

  • RQ1如何有效组织词汇知识,以支持领域特定的信息抽取,而无需对所有词汇实现完整的语义理解?
  • RQ2在IE系统中,人工构建的前景词典与自动生成的背景词典之间,最优平衡点是什么?
  • RQ3统计WSD方法能否在最小化人工投入的前提下,为通用词汇实现足够的准确率?
  • RQ4前景与背景词典之间的区分如何影响词义消歧策略的设计与性能?
  • RQ5NLP工具在降低IE应用词典开发成本并提升其质量方面发挥何种作用?

主要发现

  • 两级词典模型——前景词典用于关键领域术语,背景词典用于通用词汇——为高质量IE提供了实用且有效的框架。
  • 应用于背景词典的统计WSD方法在通用语料上准确率超过90%,表明其在领域特定调优方面具有强大潜力。
  • 前景WSD并非独立任务,而是通过仅使用适当语义类型的语义类型构建句子的连贯语义解释自然产生。
  • 人工输入需求显著降低,因为仅关键领域术语需要人工词典编纂工作,而通用词汇可由自动方法处理。
  • 现有IE系统(如POETIC、Sussex MUC-5、Sheffield MUC-6)成功实现了该两级策略,验证了其可行性。
  • 集成NLP工具(如共现分析器、语义标注和学习算法)的高级词典编纂工作台,显著减轻了构建前景词典的负担。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。