Skip to main content
QUICK REVIEW

[论文解读] Developing and Evaluating a Probabilistic LR Parser of Part-of-Speech and Punctuation Labels

Ted Briscoe, John A. Carroll|arXiv (Cornell University)|Sep 20, 1995
Natural Language Processing Techniques参考文献 17被引用 26
一句话总结

本文提出了一种基于概率的LR解析器,利用词性(POS)和标点符号标签实现稳健的、与领域无关的句法解析。通过将基于统一的语法与来自带括号标注的训练数据的概率估计相结合,研究证明标点符号显著提升了解析准确率,实验表明在输入中包含标点符号时,准确率有可测量的提升。

ABSTRACT

We describe an approach to robust domain-independent syntactic parsing of unrestricted naturally-occurring (English) input. The technique involves parsing sequences of part-of-speech and punctuation labels using a unification-based grammar coupled with a probabilistic LR parser. We describe the coverage of several corpora using this grammar and report the results of a parsing experiment using probabilities derived from bracketed training data. We report the first substantial experiments to assess the contribution of punctuation to deriving an accurate syntactic analysis, by parsing identical texts both with and without naturally-occurring punctuation marks.

研究动机与目标

  • 开发一种能够处理不受限的自然语言输入、具备鲁棒性且与领域无关的句法解析器。
  • 通过对比包含与不包含标点符号的结果,研究标点符号对句法解析准确率的贡献。
  • 评估基于统一的语法与基于概率的LR解析在词性与标点符号序列上的结合效果。
  • 使用来自带括号标注的训练数据推导出的概率来评估解析性能。

提出的方法

  • 解析器在词性与标点符号标签序列上运行,而非原始文本。
  • 使用基于统一的语法规则来表示句法约束与关系。
  • 应用基于概率的LR解析,其概率参数由带括号标注的训练语料库估计得出。
  • 系统对相同文本在有与无标点符号的情况下进行解析,以隔离标点符号的影响。
  • 报告了多个语料库的覆盖情况,以证明系统的鲁棒性与泛化能力。

实验结果

研究问题

  • RQ1在与领域无关的设置下,包含标点符号在多大程度上提升了句法解析的准确率?
  • RQ2当解析词性与标点符号标签序列时,基于概率的LR解析器表现如何?
  • RQ3与仅使用词性标签相比,标点符号对句法分析的贡献有多大?
  • RQ4基于统一的语法与基于概率的LR解析在句法解析中的结合效果如何?

主要发现

  • 实验表明,标点符号显著提升了解析准确率,包含标点符号时性能有可测量的提升。
  • 该解析器仅使用词性与标点符号标签,就在多个语料库上实现了稳健的覆盖。
  • 将基于统一的语法与基于概率的LR解析相结合,可在无需完整词汇输入的情况下实现准确的句法分析。
  • 这是首个通过有控制的实验(包含与不包含标点符号)实证评估标点符号在句法解析中作用的系统性研究。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。