Skip to main content
QUICK REVIEW

[论文解读] Interleaving Syntax and Semantics in an Efficient Bottom-Up Parser

John Dowding, Robert T. Moore|ArXiv.org|Jul 5, 1994
Speech and dialogue systems被引用 39
一句话总结

本文提出了一种高效的自底向上解析器,通过使用有限左文约束来减少句法歧义,并通过延迟类别约束应用来减少语义歧义,从而实现句法与语义的交错处理。该方法在图表边数和解析时间上实现了数量级的减少,显著提升了语音识别器的准确性,使其能基于语言结构选择更优假设。

ABSTRACT

We describe an efficient bottom-up parser that interleaves syntactic and semantic structure building. Two techniques are presented for reducing search by reducing local ambiguity: Limited left-context constraints are used to reduce local syntactic ambiguity, and deferred sortal-constraint application is used to reduce local semantic ambiguity. We experimentally evaluate these techniques, and show dramatic reductions in both number of chart-edges and total parsing time. The robust processing capabilities of the parser are demonstrated in its use in improving the accuracy of a speech recognizer.

研究动机与目标

  • 开发一种高效的自底向上解析器,以并行方式构建句法与语义结构。
  • 在不牺牲鲁棒自然语言处理完整性的前提下,减少局部句法与语义歧义。
  • 提升真实世界、噪声较大的语音输入中解析的效率与准确性,尤其在语法覆盖不完整的情况下。
  • 将语言结构分析整合到语音识别中,以降低词错误率与话语错误率。

提出的方法

  • 解析器采用基于图表的自底向上方法,使用基于统一的语法,将边保持在最一般形式以避免冗余。
  • 有限左文检查将上下文相关短语(如含未许可空缺的短语)的构建限制为仅由先前解析的左侧成分所预测的那些。
  • 延迟类别约束应用将语义过滤推迟到句法边构建完成之后,从而在不过早剪枝的前提下减少局部语义歧义。
  • 通过打包技术合并共享相同父非终结符的等价短语分析,以最小化边的过度膨胀。
  • 通过将Gemini评分(基于短语数量、完整性和规则偏好)与识别得分相结合,将解析器与语音识别器集成,以选择最佳假设。
  • 采用句法完整性、片段数量和规则偏好加权组合对假设进行排序,参数经经验优化。

实验结果

研究问题

  • RQ1有限左文约束是否能在不损失完整性的前提下,有效减少自底向上解析器中的句法歧义?
  • RQ2延迟类别约束应用是否能在保持解析效率的同时减少语义歧义?
  • RQ3句法与语义的交错处理在多大程度上能改善对非标准或有错误的语句的鲁棒解析?
  • RQ4语言结构分析的集成在多大程度上能有效提升语音识别的准确性?

主要发现

  • 解析器在图表边数和总解析时间上均实现了数量级的减少。
  • 在基线自底向上解析器中,超过80%的边在句法上不完整(例如,包含未许可的空缺),而有限左文技术成功消除了这些情况。
  • 联合系统将词错误率从12.0%降低至10.7%(改善1.3%),话语错误率从19.6%降低至17.8%(改善1.8%),两者均具有统计显著性。
  • 在22个被系统更正的错误首选拟合中,16个是由于偏好更少片段,3个是由于偏好完整句子。
  • 仅有一次更正是由于语法规则偏好所致,表明当前的规则偏好启发式方法作用有限。
  • 一次错误是由于错误的参考转录导致,另一次是由于对包含大量片段的正确假设过度惩罚,表明片段数量启发式方法仍有改进空间。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。