Skip to main content
QUICK REVIEW

[论文解读] UniMorph 4.0: Universal Morphology

Khuyagbaatar Batsuren, Omer Goldman|arXiv (Cornell University)|May 7, 2022
Natural Language Processing Techniques参考文献 63被引用 36
一句话总结

UniMorph 4.0 通过67个新语言(共182个)扩展多语言形态资源,实施层级注释,对16种语言进行词素分割,对30种语言提供派生形态数据,并提供一个可对照 UD treebanks 的自动验证工具。

ABSTRACT

The Universal Morphology (UniMorph) project is a collaborative effort providing broad-coverage instantiated normalized morphological inflection tables for hundreds of diverse world languages. The project comprises two major thrusts: a language-independent feature schema for rich morphological annotation and a type-level resource of annotated data in diverse languages realizing that schema. This paper presents the expansions and improvements made on several fronts over the last couple of years (since McCarthy et al. (2020)). Collaborative efforts by numerous linguists have added 67 new languages, including 30 endangered languages. We have implemented several improvements to the extraction pipeline to tackle some issues, e.g. missing gender and macron information. We have also amended the schema to use a hierarchical structure that is needed for morphological phenomena like multiple-argument agreement and case stacking, while adding some missing morphological features to make the schema more inclusive. In light of the last UniMorph release, we also augmented the database with morpheme segmentation for 16 languages. Lastly, this new release makes a push towards inclusion of derivational morphology in UniMorph by enriching the data and annotation schema with instances representing derivational processes from MorphyNet.

研究动机与目标

  • 为数百种语言提供广泛覆盖的、具体化的形态屈折表。
  • 处理像多个人称一致性和格叠加这样的复杂现象。
  • 使用词素分割和派生形态学来扩充数据。
  • 通过自动对比 Universal Dependencies 提升数据质量。

提出的方法

  • 在 UniMorph 结构中引入分层特征结构,以支持多参数一致性和格叠加。
  • 为16种语言添加词素分割数据,使用语言特定的屈折词素数据集和递归分割算法。
  • 从12个 Wiktionary 版本跨30种语言提取并融合4.3 million preliminary derivations,得到769,102条最终派生和12,420个词缀。
  • 扩展现有的 UniMorph 验证工具,通过与 UD treebanks 比较来计算多语言的精确度、召回率和 F-measure。
  • 编译并发布派生范式,结合 MorphyNet 派生数据。

实验结果

研究问题

  • RQ1如何让 UniMorph 扩展注释模式,以在多样语言中统一表示分层形态学?
  • RQ2添加词素分割和派生形态对 UniMorph 数据集的覆盖范围和可用性有何影响?
  • RQ3通过对多种语言的自动验证,UniMorph 4.0 与 Universal Dependencies 的对齐程度如何?
  • RQ4在 UniMorph 4.0 中实现的新数据规模有多大(语言、屈折、派生)?

主要发现

  • UniMorph 4.0 覆盖了 182 种语言和 1.22 亿个屈折,以及跨30种语言的769千个派生和12,420个词缀。
  • 新增67种语言,其中包括30种濒危语言,将数据集总数提升到182种语言。
  • 实现了分层注释模式以支持多个人称一致性和格叠加,格注释以保持顺序的方式应用。
  • 16种语言具备词素分割数据,支持对屈折形式进行递归分割。
  • 30种语言具备派生范式,产生769,102条派生和12,420个词缀。
  • 与 UD treebanks 的自动验证工具显示召回率提升(例如 v4.0 中俄语召回率高达 61.5%),同时保持高精度(高达 99.7%)。
  • 从12个 Wiktionary 版本和30种语言提取的派生数据被融合以减少重复、提供更完整的派生。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。