Skip to main content
QUICK REVIEW

[论文解读] UniMorph 2.0: Universal Morphology

Christo Kirov, Ryan Cotterell|arXiv (Cornell University)|Oct 25, 2018
Natural Language Processing Techniques参考文献 18被引用 96
一句话总结

UniMorph 2.0 使用通用标签集扩展了覆盖 52 种语言的高质量形态数据,提升 Wiktionary 提取、增加非 Wiktionary 数据来源,并实现开放协作。

ABSTRACT

The Universal Morphology UniMorph project is a collaborative effort to improve how NLP handles complex morphology across the world's languages. The project releases annotated morphological data using a universal tagset, the UniMorph schema. Each inflected form is associated with a lemma, which typically carries its underlying lexical meaning, and a bundle of morphological features from our schema. Additional supporting data and tools are also released on a per-language basis when available. UniMorph is based at the Center for Language and Speech Processing (CLSP) at Johns Hopkins University in Baltimore, Maryland and is sponsored by the DARPA LORELEI program. This paper details advances made to the collection, annotation, and dissemination of project resources since the initial UniMorph release described at LREC 2016. lexical resources} }

研究动机与目标

  • 推动在跨语言 NLP 任务中对复杂形态的改进处理。
  • 使用通用标注架构提高屈折范畴的数据质量和覆盖范围。
  • 通过额外数据源扩展 Wiktionary 以外的语言覆盖范围。
  • 促进社区参与及开放数据/工具发布,以支持下游 NLP 研究。

提出的方法

  • 通过对表格布局分组并对整组布局标注示例范式来改进 Wiktionary 数据提取。
  • 使用通用的 UniMorph 架构对屈折形式进行词干和特征束标注。
  • 整合非 Wiktionary 的数据来源并将其映射到 UniMorph 架构。
  • 在存在字典的地方,用派生术语、翻译和多词汇释义来补充数据。
  • 采用面向社区的开源发布模式,提供逐语言的元数据和问题跟踪。

实验结果

研究问题

  • RQ1如何将通用形态学架构应用于大规模、多语言 Wiktionary 数据提取,并实现高准确性?
  • RQ2哪种标注工作流在最大化语言覆盖与正确性的同时最小化人工投入?
  • RQ3如何将非 Wiktionary 资源整合并规范化到 UniMorph 2.0?
  • RQ4可以生成哪些辅助数据(派生术语、翻译、释义)以丰富形态资源?
  • RQ5UniMorph 2.0 在语型多样的语言和低资源情形下的可扩展性如何?

主要发现

  • 将资源扩展到 52 种语言,覆盖来自多样语言家族的名词、动词和形容词。
  • 基于布局分组的标注方法减少了标注工作量,并实现跨语言的快速数据生成。
  • 初步标注者验证与裁决确保跨语言的语言合理性(先前工作中对 8 种语言进行了验证;在数日内标注了 47 种 Wiktionary 语言)。
  • 纳入非 Wiktionary 数据源(Khaling、Kurmanji、Sorani Kurdish、Haida、Basque)并进行架构对齐。
  • 引入补充资源:派生术语、翻译和多词形式的英文释义,在表 1 中给出逐语言释义计数的大表。
  • 在宽松许可下进行开放发布,并提供社区基础设施(问题跟踪、邮件列表)以支持持续协作。
  • UniMorph 数据被贡献给 CoNLL 2017 Morphological Learning 共享任务。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。