QUICK REVIEW

[论文解读] Parsing as Reduction

Daniel Fernández‐González, André F. T. Martins|arXiv (Cornell University)|Feb 27, 2015

Natural Language Processing Techniques被引用 2

一句话总结

本文提出了一种新颖的成分解析到依存解析的归约方法，通过引入‘主干有序依存树’，该树通过在依存标签中轻量编码结构顺序，与成分树同构。该方法使任何可训练的依存解析器（无论是否投射）都能以极少的后处理生成高精度的成分解析结果，在德语非连续解析任务中达到最先进性能，同时匹配或超越如伯克利解析器和SPMRL-2014优胜者等强基线模型。

ABSTRACT

We reduce phrase-representation parsing to dependency parsing. Our reduction is grounded on a new intermediate representation, "head-ordered dependency trees", shown to be isomorphic to constituent trees. By encoding order information in the dependency labels, we show that any off-the-shelf, trainable dependency parser can be used to produce constituents. When this parser is non-projective, we can perform discontinuous parsing in a very natural manner. Despite the simplicity of our approach, experiments show that the resulting parsers are on par with strong baselines, such as the Berkeley parser for English and the best single system in the SPMRL-2014 shared task. Results are particularly striking for discontinuous parsing of German, where we surpass the current state of the art by a wide margin.

研究动机与目标

在无需语法估计或语料库二值化的情况下，弥合快速依存解析与信息丰富的成分解析之间的差距。
以自然且高效的方式，利用非投射依存解析器实现非连续成分解析。
开发一种方法，在显著降低计算成本的同时保持解析精度，相比现有非连续成分解析器具有明显优势。
证明一种从成分解析到依存解析的简单归约方法，可超越复杂且专门设计的成分解析系统。

提出的方法

引入‘主干有序依存树’——在每个主干节点上附加其依附事件的弱排序，以编码成分结构。
在依存弧标签中编码主节点的标签及其在主干中的位置，从而实现主干有序依存树与成分树之间的同构。
使用任何现成的、可训练的依存解析器生成依存树，然后通过简单的后处理步骤恢复一元成分。
利用主干有序依存树与成分树之间的同构性，通过基于标签的重构确保正确恢复成分结构。
将该方法应用于投射与非投射依存解析器，使德语等自由词序语言自然实现非连续解析。
采用轻量级标签编码，避免先前工作中出现的标签空间爆炸问题，从而提高解析器准确率。

实验结果

研究问题

RQ1是否可以使用依存解析器在无需语法估计或语料库二值化的情况下生成高精度的成分解析？
RQ2从成分解析到依存解析的归约方法是否能在连续与非连续成分解析任务上均实现具有竞争力的性能？
RQ3通过弱排序在依存标签中编码结构顺序，是否能与成分树形成同构？
RQ4是否可以自然且高效地利用非投射依存解析器实现非连续成分解析？
RQ5与最先进成分解析器相比，该方法在准确率与速度上表现如何，特别是在非连续结构上？

主要发现

该方法在SPMRL-2014共享任务中达到最先进F1分数，优于最佳单系统（Crabbé和Seddah，2014），并在英语上与伯克利解析器持平。
在德语TIGER和NEGRA数据集上，该方法在非连续解析任务中大幅超越当前最先进水平，使用黄金POS标签时在TIGER-H&N上达到84.22的F1，在NEGRA上达到80.52的F1。
系统在27.1秒内解析完所有NEGRA句子（每秒618个词），远快于先前方法（如van Cranenburgh和Bod，2013）处理相同数据集所用的3小时。
与Hall和Nivre（2008）相比，该方法将依存标签数量减少了10倍，从而因减少标签稀疏性而提升解析器准确率。
该方法在保持高速的同时实现了高精确匹配分数（如在TIGER-H&N黄金数据上达到54.88），在准确率与效率上均优于Versley（2014a）的“先易后难”系统。
通过命题形式正式建立了主干有序依存树与成分树之间的同构性，证明该编码方案能保持结构不变。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。