Skip to main content
QUICK REVIEW

[论文解读] Disambiguation of Super Parts of Speech (or Supertags): Almost Parsing

Aravind K. Joshi, Srinivas Bachu|ArXiv.org|Oct 26, 1994
Natural Language Processing Techniques被引用 28
一句话总结

本文提出了一种用于依存化树邻接语法(Lexicalized Tree-Adjoining Grammars, LTAG)的超标签消歧技术,该技术利用局部词汇偏好和基于依存的模型,预先为词语分配最可能的基元树结构(超标签),从而在完整解析前解决句法和语义依赖关系,实现‘近乎解析’。该方法利用n-gram和依存模型实现高准确率,显著缩小了解析器的搜索空间,使句子片段的处理更加高效。

ABSTRACT

In a lexicalized grammar formalism such as Lexicalized Tree-Adjoining Grammar (LTAG), each lexical item is associated with at least one elementary structure (supertag) that localizes syntactic and semantic dependencies. Thus a parser for a lexicalized grammar must search a large set of supertags to choose the right ones to combine for the parse of the sentence. We present techniques for disambiguating supertags using local information such as lexical preference and local lexical dependencies. The similarity between LTAG and Dependency grammars is exploited in the dependency model of supertag disambiguation. The performance results for various models of supertag disambiguation such as unigram, trigram and dependency-based models are presented.

研究动机与目标

  • 为解决类似LTAG等依存化语法中因每个词可能具有多个基元结构而导致的超标签消歧计算成本过高的问题。
  • 通过利用局部上下文和统计模型预先消歧超标签,减轻解析器的计算负担。
  • 探索LTAG与依存语法之间的相似性,以设计基于依存的超标签消歧模型。
  • 评估独元模型、三元模型和基于依存的模型在超标签消歧中的性能表现。
  • 证明超标签消歧可作为预解析过滤器,有效完成大部分解析任务。

提出的方法

  • 利用LTAG等依存化语法形式化,其中每个词汇项与一个或多个基元树(超标签)相关联,以编码句法和语义依赖关系。
  • 使用在LTAG解析语料上训练的n-gram语言模型(独元模型、三元模型)预测基于局部上下文的最可能超标签序列。
  • 引入一种基于依存的模型,利用超标签与其依存超标签之间距离的分布来提升消歧准确率。
  • 将超标签消歧视为预解析步骤,在完整解析前解决超标签歧义,从而实现‘近乎解析’。
  • 利用统计模型基于词汇偏好和局部句法依赖关系分配超标签,从而在解析过程中最小化穷举搜索的需求。
  • 利用LTAG与依存语法之间的结构相似性来建模超标签依赖关系,从而提升性能。

实验结果

研究问题

  • RQ1局部统计模型(如n-gram)是否能有效减少LTAG解析中的超标签歧义?
  • RQ2与n-gram模型相比,将超标签之间的依存信息纳入模型是否能提升消歧准确率?
  • RQ3超标签消歧在多大程度上可近似于完整解析?它能否用于解析不完整或片段化的句子?
  • RQ4在超标签消歧任务中,独元模型、三元模型和基于依存的模型在性能上如何比较?
  • RQ5超标签消歧能否作为依存化语法解析器的一般性预过滤器,从而减轻主解析器的负担?

主要发现

  • 基于依存的模型在超标签消歧中表现优于独元模型和三元模型,表明建模长距离依赖关系可提升准确率。
  • 使用n-gram模型进行超标签消歧实现了高精度,显著缩小了解析器的搜索空间。
  • 完成超标签消歧后,解析器仅需执行合并(adjunction)和替换(substitution)操作,从而以极小的额外工作量完成解析。
  • 当消歧后的超标签序列无法组合成单一结构时,该方法仍能处理句子片段,表现出良好的鲁棒性。
  • 由于依赖信息可唯一确定组合操作,超标签消歧过程在LTAG中几乎等同于完整解析。
  • 该方法可推广至LTAG以外的其他依存化语法形式化,如组合范畴语法(Combinatory Categorial Grammars, CCG)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。