Skip to main content
QUICK REVIEW

[论文解读] Corpus-Driven Knowledge Acquisition for Discourse Analysis

Stephen Soderland, Wendy G. Lehnert|ArXiv.org|Jun 7, 1994
Natural Language Processing Techniques参考文献 10被引用 26
一句话总结

本文提出 Wrap-Up,一种机器学习系统,通过在人工构建的答案键上训练决策树,从代表性文本语料库中自动获取话语级知识,以支持信息抽取。该系统用语料驱动的模型替代了人工编码的启发式规则,将开发时间从数月缩短至数天,在 MUC-4 微电子测试集上实现了高达 37.5% 的 F-measure,性能具有竞争力。

ABSTRACT

The availability of large on-line text corpora provides a natural and promising bridge between the worlds of natural language processing (NLP) and machine learning (ML). In recent years, the NLP community has been aggressively investigating statistical techniques to drive part-of-speech taggers, but application-specific text corpora can be used to drive knowledge acquisition at much higher levels as well. In this paper we will show how ML techniques can be used to support knowledge acquisition for information extraction systems. It is often very difficult to specify an explicit domain model for many information extraction applications, and it is always labor intensive to implement hand-coded heuristics for each new domain. We have discovered that it is nevertheless possible to use ML algorithms in order to capture knowledge that is only implicitly present in a representative text corpus. Our work addresses issues traditionally associated with discourse analysis and intersentential inference generation, and demonstrates the utility of ML algorithms at this higher level of language analysis. The benefits of our work address the portability and scalability of information extraction (IE) technologies. When hand-coded heuristics are used to manage discourse analysis in an information extraction system, months of programming effort are easily needed to port a successful IE system to a new domain. We will show how ML algorithms can reduce this

研究动机与目标

  • 解决信息抽取系统中人工编码话语模块带来的高开发成本与低可移植性问题。
  • 证明机器学习能够从代表性文本语料库中提取隐含的领域知识,用于话语级处理。
  • 用可扩展、语料驱动的模型替代耗时且依赖特定应用的启发式规则,实现跨领域的泛化。
  • 通过从训练数据中学习话语关系,提升信息抽取中的召回率与精确率。
  • 使领域专家——即使不具备 NLP 或机器学习专业知识——也能创建用于训练系统的答案键。

提出的方法

  • Wrap-Up 使用 ID3 决策树来建模话语级决策,如合并、链接、拆分和丢弃抽取的实体。
  • 每个决策树均基于来自句子级抽取结果的语言学特征与位置特征编码的实例进行训练。
  • 特征包括语言模式的二值指示(例如,'available in X')、关键词(例如,'deep-ultraviolet')、触发词计数以及实体间的相对距离。
  • 系统在训练过程中使用人工构建的答案键作为黄金标准标签,对实体对(例如,光刻工艺与设备)进行分类,判断其是否应被链接。
  • 系统按顺序应用多个决策树:一个用于过滤公司名称,另一个用于将工艺链接到设备。
  • 模型在来自 MUC-4 微电子领域的 700 份训练文本上进行训练,每对实体均在答案键中被标注。

实验结果

研究问题

  • RQ1机器学习算法能否在无需人工编码启发式规则的情况下,有效从代表性文本语料库中提取隐含的话语级知识?
  • RQ2基于语料的方法能否将新信息抽取领域开发时间从数月缩短至数天?
  • RQ3基于机器学习的话语处理在召回率与精确率方面能否达到甚至超越人工编码系统的性能?
  • RQ4在多大程度上可以通过答案键而非显式指南来捕捉领域知识?
  • RQ5在句子级抽取结果存在噪声的情况下,具有噪声容忍能力的机器学习模型能否保持性能?

主要发现

  • Wrap-Up 通过自动化语料分析,将话语处理的开发时间从数月缩短至仅数天。
  • 在 MUC-4 微电子测试集上,Wrap-Up 在最佳性能测试子集上达到了 37.5% 的 F-measure,其中召回率为 34.7%,精确率为 40.5%。
  • 实体名称过滤树将公司名称的精确率从基线的 33% 提升至 40.2%,同时保持 34.4% 的召回率。
  • 系统通过推断新链接(例如,从设备推断光刻工艺)以及拆分过度链接的工艺,恢复了过滤过程中损失的召回率。
  • 尽管依赖于句子级抽取结果,Wrap-Up 仍通过减少假阳性和恢复被遗漏的真实正例,提升了整体系统性能。
  • 该方法使领域专家无需具备 NLP 或机器学习技术知识,即可贡献答案键,显著降低了系统定制的门槛。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。