Skip to main content
QUICK REVIEW

[论文解读] Parsing English with a Link Grammar

Daniel D. Sleator, Davy Temperley|ArXiv.org|Aug 2, 1995
Natural Language Processing Techniques参考文献 6被引用 221
一句话总结

本文提出链接语法(link grammar),一种通过词典定义的连接器要求,基于非交叉、平面链接来建模英语句法结构的形式化方法。该方法使用时间复杂度为立方级的算法高效解析句子,展示了实际性能和对英语语法现象(包括一致关系、复杂动词及嵌套从句)的广泛覆盖能力。

ABSTRACT

We develop a formal grammatical system called a link grammar, show how English grammar can be encoded in such a system, and give algorithms for efficiently parsing with a link grammar. Although the expressive power of link grammars is equivalent to that of context free grammars, encoding natural language grammars appears to be much easier with the new system. We have written a program for general link parsing and written a link grammar for the English language. The performance of this preliminary system -- both in the breadth of English phenomena that it captures and in the computational resources used -- indicates that the approach may have practical uses as well as linguistic significance. Our program is written in C and may be obtained through the internet.

研究动机与目标

  • 开发一种形式化语法系统,通过平面、非交叉链接捕捉自然语言中的句法结构。
  • 证明链接语法能够比传统上下文无关文法更简便地编码复杂的英语语法现象。
  • 设计并实现一种高效的解析算法,能够对所有有效链接进行全面搜索。
  • 从计算效率和自然语言现象覆盖范围的角度,评估链接语法在实际应用中的实用性。

提出的方法

  • 使用词典中每个词的基于连接器的链接要求,其中每个连接器(如 D+、S-)指定方向性句法依赖关系。
  • 应用平面性、连通性和满足性约束来定义有效链接——即连接所有词语且满足每个词连接器要求的非交叉链接集合。
  • 采用时间复杂度为 O(n³) 的立方级解析算法,对给定句子的所有可能链接进行全面搜索。
  • 使用紧凑的计算机可读符号表示链接语法规则,涉及 &(与)、or(异或)以及连接器方向指示符(+/-)。
  • 通过系统化构造(包括起始产生式、空产生式和一般产生式)将链接语法转换为等价的上下文无关文法。
  • 使用数据结构和启发式方法优化解析性能,实现对典型新闻句子的快速处理。

实验结果

研究问题

  • RQ1像链接语法这样的平面、基于连接器的形式化方法能否有效建模英语句子的句法结构?
  • RQ2链接语法在捕捉自然语言现象方面的表达能力与上下文无关文法相比如何?
  • RQ3能否为链接语法设计一种时间复杂度为 O(n³) 的高效解析算法,以支持对所有有效链接的全面搜索?
  • RQ4链接语法在多大程度上能够编码复杂的句法现象,如一致关系、分词、关系从句和嵌套结构?
  • RQ5链接语法方法是否实现了适合真实世界自然语言处理应用的实用解析性能?

主要发现

  • 链接语法形式成功捕捉了广泛的英语句法现象,包括名词-动词一致、复杂动词、疑问句、祈使句、分词和关系从句。
  • 解析算法的时间复杂度为 O(n³),典型新闻句子可在几秒内处理完成,展现出实际的计算效率。
  • 该系统支持全面解析,能够找出给定句子的所有有效链接,从而实现稳健的句法分析。
  • 通过系统化地将链接语法转换为等价的上下文无关文法,已证明链接语法在表达能力上与上下文无关文法形式等价。
  • 该方法在语言学表达力与计算可处理性之间实现了良好平衡,700条规则的语法覆盖了广泛的句法复杂性。
  • 使用 ANSI-C 实现的系统可通过互联网获取,支持可扩展性和实际部署。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。