Skip to main content
QUICK REVIEW

[论文解读] Attaching Multiple Prepositional Phrases: Generalized Backed-off Estimation

Paola Merlo, Matthew W. Crocker|arXiv (Cornell University)|Oct 16, 1997
Natural Language Processing Techniques参考文献 7被引用 32
一句话总结

本文将用于解决介词短语(PP)依附歧义的统计技术——回退估计法——扩展至单句中多个PP的情形。通过重用首个PP的丰富训练数据来指导后续PP的依附判断,该方法显著优于随机猜测或基线模型,单个PP时准确率达84.3%,两个PP时达69.6%,三个PP时达43.6%,展现出对多PP歧义消解中数据稀疏性和歧义性挑战的实用解决方案。

ABSTRACT

There has recently been considerable interest in the use of lexically-based statistical techniques to resolve prepositional phrase attachments. To our knowledge, however, these investigations have only considered the problem of attaching the first PP, i.e., in a [V NP PP] configuration. In this paper, we consider one technique which has been successfully applied to this problem, backed-off estimation, and demonstrate how it can be extended to deal with the problem of multiple PP attachment. The multiple PP attachment introduces two related problems: sparser data (since multiple PPs are naturally rarer), and greater syntactic ambiguity (more attachment configurations which must be distinguished). We present and algorithm which solves this problem through re-use of the relatively rich data obtained from first PP training, in resolving subsequent PP attachments.

研究动机与目标

  • 解决包含多个PP的句子中介词短语(PP)依附问题,此类情况相较于单个PP情形具有更高的句法歧义性与更稀疏的训练数据。
  • 将已在单个PP依附中取得成功的回退估计技术扩展至处理多个PP,通过重用首个PP的有信息量训练数据。
  • 开发一种通用且可扩展的方法,在可能的依附配置呈指数级增长的情况下仍能保持高准确率。
  • 评估竞争性回退估计是否能在多PP歧义消解任务中超越随机猜测和朴素基线模型。

提出的方法

  • 该方法使用四元组格式(C, v, n1, p, n2)表示单个PP依附,其中C表示依附于动词(1)或名词短语(2),v、n1、p、n2分别为动词、名词、介词和第二个名词。
  • 对于多个PP,该算法通过递归地对每个后续介词应用估计过程,利用早期PP中最具信息量的特征来扩展回退估计流程。
  • 当完整元组(如v, n1, p1, n2, p2, n3)的计数为零时,算法会退回到更短的n-gram,逐步减少元组中的元素数量。
  • 对于三个PP,该算法采用竞争性回退估计:首先确定前两个PP最可能的配置(C′5),然后针对每个可能的句法核心(n1, n2, n3)评估第三个PP的优选依附方式,并选择整体最优配置。
  • 该算法优先考虑出现频率较高的偏好,而非概率值,使由更多训练样本支持的偏差获得更强权重。
  • 该方法通过在估计概率上取argmax来扩展至k种配置,回退路径设计旨在保持稳定性,并避免在稀疏数据上过拟合。

实验结果

研究问题

  • RQ1回退估计能否被推广以处理多个介词短语依附问题,其中数据稀疏性和组合爆炸显著增加了难度?
  • RQ2在多PP结构中,能否有效重用首个PP的训练数据来提升后续PP的依附判断?
  • RQ3竞争性回退估计是否在多PP歧义消解任务中优于随机猜测和朴素基线模型?
  • RQ4随着PP数量的增加(如1个、2个或3个PP),该通用方法的性能如何变化?
  • RQ5在低频事件情况下,将介词包含在元组中会产生何种影响?

主要发现

  • 所提出的通用回退估计方法在单个PP依附任务中达到84.3%的准确率,与Collins和Brooks使用类似方法报告的84.5%结果非常接近。
  • 对于两个PP,该方法达到69.6%的准确率,显著优于基于最常见配置的29.8%基线水平。
  • 对于三个PP,该方法达到43.6%的准确率,远超随机从14种可能配置中选择的18.5%基线水平。
  • 该方法表明,首个PP的训练数据可被有效重用于缓解后续PP的歧义性,从而缓解数据稀疏问题。
  • 回退策略在两级回退内保持稳定且有效,但超过两级后变得不可靠,因此需要采用竞争性估计。
  • 在元组中包含介词至关重要:它们是最具信息量的元素,其存在可使性能提升几个百分点,尤其在处理低频事件时效果显著。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。