[论文解读] Universal Dependencies v2: An Evergrowing Multilingual Treebank Collection
UD v2 引入了主要准则更新、扩展的多语树库,以及包括形态句法特征、关系和增强依赖在内的增强注释方案,覆盖大约 90 种语言。
Universal Dependencies is an open community effort to create cross-linguistically consistent treebank annotation for many languages within a dependency-based lexicalist framework. The annotation consists in a linguistically motivated word segmentation; a morphological layer comprising lemmas, universal part-of-speech tags, and standardized morphological features; and a syntactic layer focusing on syntactic relations between predicates, arguments and modifiers. In this paper, we describe version 2 of the guidelines (UD v2), discuss the major changes from UD v1 to UD v2, and give an overview of the currently available treebanks for 90 languages.
研究动机与目标
- 描述 UD v2 指南以及 UD v1 到 UD v2 的主要变动。
- 提供截至 UD v2.5 可用的 90 种语言的 UD treebank 资源总览。
- 解释注释方案组成部分:分词、形态、句法以及增强依赖。
- 突出多语言解析的发展及该项目对 NLP 研究的影响。
提出的方法
- 描述 UD 中的分词和词分割决策。
- 总结 UD v2 中的通用 POS 标签集及形态特征清单及其扩展。
- 解释 UD v2 句法关系分类及对功能关系、多词表达和并列结构的变更。
- 概述增强的依存框架及其五项增强,包括空节点和并列成分的传播。
实验结果
研究问题
- RQ1在分词、形态和句法方面,UD v1 到 UD v2 的关键变动有哪些?
- RQ2截至 v2.5,UD v2 的多语言资源覆盖在语言和树库方面有多广?
- RQ3UD v2 注释方案和增强依存背后的主要设计决策是什么?
- RQ4UD v2 如何影响多语言解析研究和如 CoNLL 之类的共同任务?
- RQ5就语言族和体裁而言,UD treebanks 的当前范围和多样性如何?
主要发现
- UD v2 显著扩大语言覆盖和树库资源相比于 UD v1,到 v2.5 时共有 157 个 treebank 和 90 种语言。
- 注释方案保持通用的 POS 标签集,具有扩展的形态特征和经修订的句法关系,包括新类别或修订类别(例如 nsubj:pass、obl、cc 位置)。
- 多词表达的用法被修订,扩大了 compound、fixed 和 flat 关系的使用,取代了 UD v1 的若干类别并引入 flat:name/flat:foreign 子类型。
- 对于许多 UD treebank 提供了增强的依存关系,能够显式表示省略、控制和关系从句等隐含关系,尽管采用程度有限(24 个 treebank)。
- UD 项目支持多语言解析的进展和共享任务,促成更高的解析分数和更广的语言覆盖,为 NLP 研究做出贡献。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。