Skip to main content
QUICK REVIEW

[论文解读] PRINCIPAR---An Efficient, Broad-coverage, Principle-based Parser

Dekang Lin|ArXiv.org|Jul 27, 1994
Network Packet Processing and Optimization被引用 28
一句话总结

PRINCIPAR 是一种高效、广覆盖、基于原则的英语解析器,通过在语法网络上使用消息传递算法,直接将政府与约束(GB)原则应用于结构描述,而非生成并过滤所有可能的X-bar结构。它通过根据句法角色和频率为链接和词义分配权重,实现选择性剪枝,仅返回最合理的解析结果,从而在保持高解析速度的同时显著减小解析森林的规模。

ABSTRACT

We present an efficient, broad-coverage, principle-based parser for English. The parser has been implemented in C++ and runs on SUN Sparcstations with X-windows. It contains a lexicon with over 90,000 entries, constructed automatically by applying a set of extraction and conversion rules to entries from machine readable dictionaries.

研究动机与目标

  • 开发一种高效、广覆盖的英语解析器,避免生成所有可能的X-bar结构所导致的组合爆炸问题。
  • 解决以往基于原则的解析器因生成并过滤大量候选结构而效率低下的问题。
  • 通过基于消息传递的框架,将语法规则直接整合到解析过程中,该框架作用于结构描述而非完整结构。
  • 通过使用加权链接和罕见词义标识符,优先选择句法上更合理的结构,从而减少虚假解析的数量。
  • 通过C++实现并配备图形用户界面,在复杂句子上实现实际可用的解析性能。

提出的方法

  • 解析器使用语法网络,其中节点表示句法类别(例如,NP、V:NP),链接表示从属或支配关系。
  • 消息沿链接反向传递,每个节点维护一个本地记忆,存储代表部分X-bar结构的三元组(包含区间、属性和源消息)。
  • 仅当区间相邻、属性可统一且源消息通过不同链接到达时,才组合项目,形成新的复合项目。
  • 节点上的局部约束用于验证项目,完成谓词触发消息向更高层节点的转发,传播有效的结构描述。
  • 原则以节点上的局部约束和链接上的传播约束形式编码,确保在构建完整结构前,结构描述已满足GB条件。
  • 采用加权剪枝机制,利用链接权重(补足语为1.0,附加语为bigweight)和罕见词义属性(rare: very → bigweight,very-very → 2×bigweight),优先选择更合理的解析。

实验结果

研究问题

  • RQ1基于原则的解析器能否通过直接在结构描述上应用原则,避免生成并过滤所有可能的X-bar结构所带来的低效问题?
  • RQ2如何在消息传递架构中有效编码并强制执行语法规则,以实现高效解析?
  • RQ3加权链接和罕见词义标识符在多大程度上能减少解析森林的规模,同时保持正确解析?
  • RQ4基于属性统一的消息传递算法能否在真实英语句子上实现高解析速度和广覆盖?
  • RQ5基于频率的权重集成在多大程度上改善了首选句法分析的选择?

主要发现

  • 对于长度达26个词的句子,解析时间均在1秒以内,最长句子(26词)在Sparcstation ELC上耗时0.80秒。
  • 所有测试句子均正确返回了预期解析结果,未报告任何错误或遗漏的解析。
  • 每句话的解析数量保持较低水平——即使在存在多个句法歧义的复杂句子中,也极少超过6种。
  • 加权剪枝机制成功消除了不合理的解析:例如,在句子"John read the story about Kim"中,附加语分析(b)因链接权重较高(adjunct为bigweight)被舍弃,仅保留正确的补足语分析(a)。
  • 罕见词义属性系统有效抑制了低频解释:在"Who did Kim love?"中,"did"的双及物用法(rare: very-very)因2×bigweight的代价被舍弃,仅保留正确的助动词用法。
  • 解析器在各类句型(包括嵌套从句、复杂名词短语和句法歧义句)上表现稳定,展现出广覆盖性和鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。