Skip to main content
QUICK REVIEW

[论文解读] An Efficient Implementation of the Head-Corner Parser

Gertjan van Noord|University of Groningen research database (University of Groningen / Centre for Information Technology)|Jan 17, 1997
Natural Language Processing Techniques参考文献 30被引用 74
一句话总结

本文提出一种高效、带记忆的头词解析器,并结合目标弱化技术用于约束语法,显著提升了标准图表解析器在速度和空间效率方面的表现。实验表明,该方法在复杂语法下优于左角解析器和自底向上图表解析器,尤其在词汇歧义较低时表现更优,展示了其在 OVIS 系统中对鲁棒性、歧义性荷兰语对话句的优越解析性能。

ABSTRACT

This paper describes an efficient and robust implementation of a bi-directional, head-driven parser for constraint-based grammars. This parser is developed for the OVIS system: a Dutch spoken dialogue system in which information about public transport can be obtained by telephone. After a review of the motivation for head-driven parsing strategies, and head-corner parsing in particular, a non-deterministic version of the head-corner parser is presented. A memoization technique is applied to obtain a fast parser. A goal-weakening technique is introduced which greatly improves average case efficiency, both in terms of speed and space requirements. I argue in favor of such a memoization strategy with goal-weakening in comparison with ordinary chart-parsers because such a strategy can be applied selectively and therefore enormously reduces the space requirements of the parser, while no practical loss in time-efficiency is observed. On the contrary, experiments are described in which head-corner and left-corner parsers implemented with selective memoization and goal weakening outperform `standard' chart parsers. The experiments include the grammar of the OVIS system and the Alvey NL Tools grammar. Head-corner parsing is a mix of bottom-up and top-down processing. Certain approaches towards robust parsing require purely bottom-up processing. Therefore, it seems that head-corner parsing is unsuitable for such robust parsing techniques. However, it is shown how underspecification (which arises very naturally in a logic programming environment) can be used in the head-corner parser to allow such robust parsing techniques. A particular robust parsing model is described which is implemented in OVIS.

研究动机与目标

  • 开发一种适用于口语对话系统中约束语法的快速且内存高效的解析器。
  • 解决标准图表解析器在处理歧义性和冗余规则应用时的低效问题。
  • 通过选择性记忆与目标弱化技术提升解析性能。
  • 在 OVIS 系统的真实、歧义性荷兰语法上评估解析器的鲁棒性与效率。
  • 探究头词解析是否能在未完全指定、基于逻辑编程的环境中支持鲁棒解析。

提出的方法

  • 设计一种非确定性头词解析器,通过先识别规则的中心词,再解析其依赖成分,实现自顶向下与自底向上处理的结合。
  • 应用选择性记忆技术,仅缓存相关解析状态,降低空间使用量,同时不损失运行速度。
  • 引入目标弱化机制,提前剪枝无希望的解析路径,提升平均情况下的效率。
  • 利用逻辑编程环境(Prolog)自然表达未完全指定信息,实现在不确定性条件下的鲁棒解析。
  • 在两个语法上进行实现测试:MiMo2 语法(荷兰语对话)与 Alvey NL Tools 语法(复杂、歧义性强)。
  • 解析结果包括完整句法树构建与内存使用度量,并与标准左角解析器和自底向上图表解析器进行对比。

实验结果

研究问题

  • RQ1结合选择性记忆与目标弱化的头词解析器是否在速度与内存效率方面优于标准图表解析器?
  • RQ2该头词解析器如何应对高词汇歧义?其可扩展性是否优于自底向上方法?
  • RQ3在基于逻辑编程的环境中,未完全指定信息在多大程度上能支持头词解析中的鲁棒解析?
  • RQ4为何头词解析器在 Alvey NL Tools 语法上的表现劣于 MiMo2 语法?
  • RQ5目标弱化与选择性记忆带来的性能提升是否在不同句法结构与句子复杂度下保持一致?

主要发现

  • 在 100 个句子的测试集(MiMo2 语法)上,结合选择性记忆与目标弱化的头词解析器达到每句 195.9 毫秒的处理速度,优于左角解析器(216.2 毫秒),并显著超越自底向上图表解析器。
  • 自底向上活跃图表解析器在高度歧义的句子上遭遇内存限制,超过 65,000 KB,而头词解析器仅使用 10,955 KB。
  • 在 Alvey NL Tools 语法上,头词解析器比左角解析器更慢,表明当过多词汇项可充当中心词时,其收益有限,非确定性增加。
  • 解析器在词串上的表现优于词图,表明词汇歧义增加(如词图中所示)会降低头词解析的效率。
  • 目标弱化减少了不必要的搜索路径,提升了时间与空间效率,且在实际解析场景中未损失完备性。
  • 结果证实,选择性记忆结合目标弱化比标准图表解析更有效,尤其在低歧义、以中心词驱动的语法中。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。