Skip to main content
QUICK REVIEW

[论文解读] Head-Driven Phrase Structure Grammar Parsing on Penn Treebank

Junru Zhou, Hai Zhao|arXiv (Cornell University)|Jul 5, 2019
Topic Modeling参考文献 68被引用 20
一句话总结

本文提出了一种新颖的简化头驱动短语结构语法(HPSG),将短语结构与依存结构统一于单一形式化体系中,通过两种新算法——划分跨度(division span)与联合跨度(joint span)实现联合解析。该模型在Penn Treebank上取得了最先进性能,成分解析F1得分为96.33,依存解析UAS达97.20%,并使用了基于BERT的特征。

ABSTRACT

Head-driven phrase structure grammar (HPSG) enjoys a uniform formalism representing rich contextual syntactic and even semantic meanings. This paper makes the first attempt to formulate a simplified HPSG by integrating constituent and dependency formal representations into head-driven phrase structure. Then two parsing algorithms are respectively proposed for two converted tree representations, division span and joint span. As HPSG encodes both constituent and dependency structure information, the proposed HPSG parsers may be regarded as a sort of joint decoder for both types of structures and thus are evaluated in terms of extracted or converted constituent and dependency parsing trees. Our parser achieves new state-of-the-art performance for both parsing tasks on Penn Treebank (PTB) and Chinese Penn Treebank, verifying the effectiveness of joint learning constituent and dependency structures. In details, we report 96.33 F1 of constituent parsing and 97.20\% UAS of dependency parsing on PTB.

研究动机与目标

  • 在简化HPSG形式化体系中统一成分与依存句法结构,以实现更丰富的语言表征。
  • 开发针对统一HPSG结构的新型解析算法——划分跨度与联合跨度。
  • 在成分与依存解析任务上评估联合解析模型,通过联合学习展示性能提升。
  • 在英语(PTB)与汉语(CTB)语料库上,对两种解析类型均实现最先进性能。

提出的方法

  • 作者通过整合Penn Treebank中的成分与依存树表示,构建了简化HPSG,同时保留头驱动结构与论元结构信息。
  • 引入两种基于跨度的表示方法:划分跨度,通过在头部位置前加前缀'H'以区分头部左右成分;联合跨度,同时编码短语结构与依存弧。
  • 训练一种基于自注意力机制的神经模型,端到端预测简化HPSG解析树,使用划分跨度或联合跨度表示。
  • 利用上下文嵌入(ELMo、BERT、RoBERTa、XLNet)增强表征学习,提升泛化能力。
  • 通过在训练过程中同时优化成分与依存得分,实现联合解码,支持两种结构的联合学习。
  • 在基于简化HPSG生成的成分与依存解析树上评估解析器,性能通过标准F1与UAS指标衡量。

实验结果

研究问题

  • RQ1统一的HPSG形式化体系能否有效结合成分与依存句法结构,从而提升解析性能?
  • RQ2通过简化HPSG框架联合学习成分与依存解析,是否优于独立学习?
  • RQ3所提出的划分跨度与联合跨度表示能否支持有效的神经解析,并在标准基准上提升准确率?
  • RQ4通过HPSG引入更丰富的语言结构,在英语与汉语语料库上在多大程度上提升了解析性能?

主要发现

  • 所提出的HPSG解析器在Penn Treebank成分解析基准上取得了96.33的新SOTA F1得分,超越先前模型。
  • 该模型在Penn Treebank依存解析任务上达到97.20%的UAS,创下新SOTA记录。
  • 使用XLNet嵌入时,联合跨度模型达到96.33 F1与97.20% UAS,证明了联合学习与上下文表征的有效性。
  • 在中文Penn Treebank上,该模型使用RoBERTa达到92.55 F1,优于先前方法,证实了其在多语言上的泛化能力。
  • 联合跨度解析方法始终优于划分跨度方法,表明联合编码成分与依存结构更具有效性。
  • 结果验证了通过统一HPSG框架联合学习成分与依存解析,可带来显著的性能提升。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。