Skip to main content
QUICK REVIEW

[論文レビュー] Universal Dependencies v2: An Evergrowing Multilingual Treebank Collection

Joakim Nivre, Marie-Catherine de Marneffe|arXiv (Cornell University)|Apr 22, 2020
Natural Language Processing Techniques参考文献 17被引用数 330
ひとこと要約

UD v2 は主要なガイドラインの更新、拡大した多言語木データベース、そして形態統語特徴、関係、強化された依存関係を含む注釈スキームを約90言語に渡って強化することを導入します。

ABSTRACT

Universal Dependencies is an open community effort to create cross-linguistically consistent treebank annotation for many languages within a dependency-based lexicalist framework. The annotation consists in a linguistically motivated word segmentation; a morphological layer comprising lemmas, universal part-of-speech tags, and standardized morphological features; and a syntactic layer focusing on syntactic relations between predicates, arguments and modifiers. In this paper, we describe version 2 of the guidelines (UD v2), discuss the major changes from UD v1 to UD v2, and give an overview of the currently available treebanks for 90 languages.

研究の動機と目的

  • UD v2 ガイドラインと UD v1 から UD v2 への主要な変更点を説明する。
  • UD v2.5 時点で利用可能な 90 言語の UD 木構文データ資源の概要を提供する。
  • 注釈スキームの構成要素であるトークン化、形態、統語、そして強化された依存関係を説明する。
  • 多言語解析の進展と本プロジェクトが NLP 研究に与える影響を強調する。

提案手法

  • UD におけるトークン化と語分割の決定について説明する。
  • UD v2 における普遍的 POS タグセットと形態素特徴のリストとその拡張を要約する。
  • UD v2 の統語的関係タクソノミーと機能的関係、複数語表現、連結の変更点を説明する。
  • ヌルノードおよび連結の伝搬を含む、強化された依存フレームワークとその五つの強化点を概説する。

実験結果

リサーチクエスチョン

  • RQ1トークン化、形態、統語における UD v1 から UD v2 への主要な変更点は何ですか?
  • RQ2v2.5 時点で UD v2 の多言語リソースの言語と木データベースのカバレッジはどの程度ですか?
  • RQ3UD v2 の注釈スキームと強化された依存関係の背後にある主な設計決定は何ですか?
  • RQ4UD v2 は多言語解析研究と CoNLL などの共通課題にどのような影響を与えましたか?
  • RQ5言語ファミリとジャンルの観点で、UD 木データの現在の範囲と多様性はどの程度ですか?

主な発見

  • UD v2 は UD v1 と比較して言語カバレッジと木データ資源を大幅に拡大し、v2.5 までに 157 の木データと 90 言語を実現している。
  • 注釈スキームは普遍的な POS タグセットを維持し、拡張された形態素特徴と洗練された統語関係を備え、新しいまたは改訂されたカテゴリを含む(例: nsubj:pass, obl, cc の配置)。
  • 複合語表現は、複合、固定、平坦な関係のより広い使用をもって改訂され、UD v1 のいくつかのカテゴリを置換し、flat:name/flat:foreign のサブタイプを導入した。
  • 多くの UD 木データに対して強化された依存関係が利用可能で、省略、支配、関係節などの暗黙的な関係の明示的表現を可能にするが、適用は部分的(24 の木データ)である。
  • UD プロジェクトは多言語解析の進展と共通課題を支援し、解析スコアの向上と NLP 研究の言語カバレッジを広げることに貢献している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。