Skip to main content
QUICK REVIEW

[论文解读] Chart-based Zero-shot Constituency Parsing on Multiple Languages

Taeuk Kim, Bowen Li|arXiv (Cornell University)|Sep 22, 2020
Natural Language Processing Techniques参考文献 44被引用 5
一句话总结

本文提出一种基于图表的零样本成分解析方法,利用预训练语言模型(PLMs)无需微调,即可在英语 PTB 上实现具有竞争力的性能,并通过单语和多语种 PLMs 将零样本解析扩展至九种语言。该方法结合了一种新颖的基于图表的解码策略与一种高效的集成技术,实现了跨多种语言的、语言无关的无监督解析。

ABSTRACT

Zero-shot constituency parsing is a recent methodology in unsupervised parsing that aims to extract parse trees from pre-trained language models (PLMs) with no extra training. This paper improves upon the existing paradigm by introducing the combination of a novel chart-based method and an effective ensemble technique, attaining performance competitive to other unsupervised parsers on English PTB. Furthermore, we broaden the range of zero-shot parsing application by examining languages other than English. Specifically, we first demonstrate that the approach is applicable to the languages that are equipped with their respective monolingual PLMs. Finally, we propose to introduce multilingual PLMs into the zero-shot parsing framework, confirming that it is possible to generate reasonable parses for sentences in nine languages in an integrated and language-agnostic manner.

研究动机与目标

  • 开发一种零样本成分解析方法,该方法在解析过程中无需任何训练数据。
  • 通过在单语 PLMs 上应用该方法,将零样本解析从英语扩展至多种语言。
  • 探究使用多语种 PLMs 实现统一、语言无关的零样本解析的可行性。
  • 通过一种新颖的基于图表的解码策略和集成技术,提升解析性能。

提出的方法

  • 提出一种基于图表的解码方法,可从 PLM 表征中高效探索句法结构,无需训练。
  • 采用多种解码策略的集成,以提升在多样化语言模式下的鲁棒性与性能。
  • 利用具有可用预训练模型的语言的单语 PLMs,以实现零样本解析。
  • 将该框架扩展至多语种 PLMs,以统一、语言无关的方式支持九种语言的解析。
  • 利用 PLMs 的注意力模式和上下文表征,指导图表构建与解析决策。

实验结果

研究问题

  • RQ1基于图表的零样本解析方法是否能在无需任何训练的情况下,在英语 PTB 上实现具有竞争力的性能?
  • RQ2所提出的方法是否能成功应用于除英语以外的语言,使用单语 PLMs?
  • RQ3是否可行使用多语种 PLMs 在单一统一框架中实现对多种语言的零样本解析?
  • RQ4与单一解码策略相比,集成技术如何提升解析质量?

主要发现

  • 所提出的方法在英语 PTB 基准上实现了与现有无监督解析器相当的性能。
  • 该方法成功实现了基于单语 PLMs 的零样本解析,展示了其在英语之外的广泛应用潜力。
  • 多语种 PLMs 在单一、语言无关的框架中实现了对九种语言的有效零样本解析。
  • 基于图表的解码与集成技术的结合显著提升了解析质量与鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。