Skip to main content
QUICK REVIEW

[论文解读] Universal Dependencies v2: An Evergrowing Multilingual Treebank Collection

Joakim Nivre, Marie-Catherine de Marneffe|arXiv (Cornell University)|Apr 22, 2020
Natural Language Processing Techniques参考文献 17被引用 330
一句话总结

UD v2 引入了主要准则更新、扩展的多语树库,以及包括形态句法特征、关系和增强依赖在内的增强注释方案,覆盖大约 90 种语言。

ABSTRACT

Universal Dependencies is an open community effort to create cross-linguistically consistent treebank annotation for many languages within a dependency-based lexicalist framework. The annotation consists in a linguistically motivated word segmentation; a morphological layer comprising lemmas, universal part-of-speech tags, and standardized morphological features; and a syntactic layer focusing on syntactic relations between predicates, arguments and modifiers. In this paper, we describe version 2 of the guidelines (UD v2), discuss the major changes from UD v1 to UD v2, and give an overview of the currently available treebanks for 90 languages.

研究动机与目标

  • 描述 UD v2 指南以及 UD v1 到 UD v2 的主要变动。
  • 提供截至 UD v2.5 可用的 90 种语言的 UD treebank 资源总览。
  • 解释注释方案组成部分:分词、形态、句法以及增强依赖。
  • 突出多语言解析的发展及该项目对 NLP 研究的影响。

提出的方法

  • 描述 UD 中的分词和词分割决策。
  • 总结 UD v2 中的通用 POS 标签集及形态特征清单及其扩展。
  • 解释 UD v2 句法关系分类及对功能关系、多词表达和并列结构的变更。
  • 概述增强的依存框架及其五项增强,包括空节点和并列成分的传播。

实验结果

研究问题

  • RQ1在分词、形态和句法方面,UD v1 到 UD v2 的关键变动有哪些?
  • RQ2截至 v2.5,UD v2 的多语言资源覆盖在语言和树库方面有多广?
  • RQ3UD v2 注释方案和增强依存背后的主要设计决策是什么?
  • RQ4UD v2 如何影响多语言解析研究和如 CoNLL 之类的共同任务?
  • RQ5就语言族和体裁而言,UD treebanks 的当前范围和多样性如何?

主要发现

  • UD v2 显著扩大语言覆盖和树库资源相比于 UD v1,到 v2.5 时共有 157 个 treebank 和 90 种语言。
  • 注释方案保持通用的 POS 标签集,具有扩展的形态特征和经修订的句法关系,包括新类别或修订类别(例如 nsubj:pass、obl、cc 位置)。
  • 多词表达的用法被修订,扩大了 compound、fixed 和 flat 关系的使用,取代了 UD v1 的若干类别并引入 flat:name/flat:foreign 子类型。
  • 对于许多 UD treebank 提供了增强的依存关系,能够显式表示省略、控制和关系从句等隐含关系,尽管采用程度有限(24 个 treebank)。
  • UD 项目支持多语言解析的进展和共享任务,促成更高的解析分数和更广的语言覆盖,为 NLP 研究做出贡献。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。