QUICK REVIEW

[論文レビュー] UniMorph 2.0: Universal Morphology

Christo Kirov, Ryan Cotterell|arXiv (Cornell University)|Oct 25, 2018

Natural Language Processing Techniques参考文献 18被引用数 96

ひとこと要約

UniMorph 2.0 は universal tagset を用いて 52 語にわたる高品質な形態データを拡張し、Wiktionary からの抽出を改善し、非 Wiktionary ソースを追加し、オープンな協力を可能にします。

ABSTRACT

The Universal Morphology UniMorph project is a collaborative effort to improve how NLP handles complex morphology across the world's languages. The project releases annotated morphological data using a universal tagset, the UniMorph schema. Each inflected form is associated with a lemma, which typically carries its underlying lexical meaning, and a bundle of morphological features from our schema. Additional supporting data and tools are also released on a per-language basis when available. UniMorph is based at the Center for Language and Speech Processing (CLSP) at Johns Hopkins University in Baltimore, Maryland and is sponsored by the DARPA LORELEI program. This paper details advances made to the collection, annotation, and dissemination of project resources since the initial UniMorph release described at LREC 2016. lexical resources} }

研究の動機と目的

NLP タスクのための言語横断で複雑な形態をより適切に扱う動機づけ。
universal annotation schema を用いて、屈折パラダイムのデータ品質とカバレッジを向上させる。
追加データソースを通じて Wiktionary を超える言語カバレッジを拡大する。
コミュニティの参加を促進し、下流の NLP 研究を支援するためのオープンデータ/ツールのリリースを促進する。

提案手法

テーブルのレイアウトをグループ化し、全体のレイアウトグループの標本パラダイムを注釈付けすることにより、Wiktionary データ抽出を改善する。
ユニバーサル UniMorph スキーマを用いて、語根と特徴束を付した屈折形を注釈付けする。
非 Wiktionary データソースを取り込み、UniMorph スキーマにマッピングする。
辞書が存在する場合、派生語、翻訳、複数語グロスをデータに補足する。
言語ごとのメタデータと課題追跡を備えた、コミュニティ志向のオープンソースリリースモデルを採用する。

実験結果

リサーチクエスチョン

RQ1ユニバーサル形態スキーマを大規模で多言語の Wiktionary データ抽出に高い精度で適用するにはどうすればよいか？
RQ2人手の負担を最小化しつつ、言語的カバレッジと正確さを最大化する注釈ワークフローは何か？
RQ3非 Wiktionary リソースを UniMorph 2.0 に統合・正規化する方法は？
RQ4派生語、翻訳、グロスなどの補助データを生成して、形態資源をどのように充実させられるか？
RQ5UniMorph 2.0 は typologically diverse languages や低リソース事例にどれほどスケールするか？

主な発見

多様な語族にわたり、名詞・動詞・形容詞をカバーする 52 言語へリソースを拡張。
レイアウトグループベースの注釈アプローチは注釈作業量を削減し、言語間で迅速なデータ生成を可能にした。
初期の注釈者検証と裁定により、言語横断の言語感覚を確保（前作では8言語検証；47の Wiktionary 言語が数日で注釈された）。
Khaling、Kurmanji、Sorani Kurdish、Haida、Basque などの非 Wiktionary データソースをスキーマ整合とともに含める。
派生語、翻訳、英語グロスを多語形成に対して追加し、Table 1 に言語別グロス数の大きな表を含む。
寛大なライセンスの下での公開リリースと、継続的な協力を支えるコミュニティ基盤（issue trackers、メールリスト）を提供。
UniMorph データは CoNLL 2017 Shared Task on Morphological Learning に貢献。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。