Skip to main content
QUICK REVIEW

[論文レビュー] Towards Better UD Parsing: Deep Contextualized Word Embeddings, Ensemble, and Treebank Concatenation

Wanxiang Che, Yijia Liu|arXiv (Cornell University)|Jul 9, 2018
Natural Language Processing Techniques参考文献 19被引用数 105
ひとこと要約

HIT-SCIR システムは ELMo の文脈化埋め込みを取り入れ、アンサンブルパーサを用い、木ベースを連結することで多言語 UD 解析を改善し、CoNLL-2018 テストセットでトップの LAS を達成する。

ABSTRACT

This paper describes our system (HIT-SCIR) submitted to the CoNLL 2018 shared task on Multilingual Parsing from Raw Text to Universal Dependencies. We base our submission on Stanford's winning system for the CoNLL 2017 shared task and make two effective extensions: 1) incorporating deep contextualized word embeddings into both the part of speech tagger and parser; 2) ensembling parsers trained with different initialization. We also explore different ways of concatenating treebanks for further improvements. Experimental results on the development data show the effectiveness of our methods. In the final evaluation, our system was ranked first according to LAS (75.84%) and outperformed the other systems by a large margin.

研究の動機と目的

  • 深い文脈依存型単語埋め込み(ELMo)が UD 解析における POS タギングと依存関係解析に与える影響を調査する。
  • 異なる初期化を用いたアンサンブル解析の利点を探る。
  • クロスドメインおよびクロスリンガルの木ベース連結が解析性能に与える影響を検討する。
  • UD 解析の前処理強化(文 segmentation/トークン化)の評価。
  • クロスリンガル埋め込み転送および関連技術を通じて低リソース言語に対処する。

提案手法

  • POS タグ付け器と依存パーサの両方に ELMo ベースの文脈化単語埋め込みを組み込む。
  • 異なる初期化で複数のパーサを訓練し、ソフトマックススコアの平均化で出力をアンサンブルする。
  • 同じ言語ファミリーまたは関連ドメインから選択された木ベースを連結して解析精度を向上させ、検証ベースの判断で決定する。
  • 共有空間へ埋め込みを変換することで、低リソース言語を扱うためのクロスリンガル埋め込み転送を利用する。
  • 先進的な文セグメンテーション(Uppsala segmentor)と言語特異的トークナイザー(SCIR)を用いた前処理の強化を、中国語/日本語/ベトナム語に適用する。

実験結果

リサーチクエスチョン

  • RQ1UD 解析における POS タギング精度と LAS に対する ELMo 埋め込みの組み込み効果はどのようか?
  • RQ2パーサーアンサンブリングは言語や木ベース間で一貫した改善をもたらすか?
  • RQ3木ベース連結(クロスドメインまたはクロスリンガル)は UD 解析性能にどのような影響を与え、どの条件下で有益か?
  • RQ4前処理のどの改善(文セグメンテーション、トークン化)が解析性能に最も強く影響するか?
  • RQ5クロスリンガル埋め込み転送は低リソース言語の解析をどのように支援し、その限界は何か?

主な発見

  • タグ付け器における ELMo はマクロ平均 UPOS を 0.56% 向上させ、LAS を 0.84% 向上して parses する。
  • パーサーにおける ELMo はマクロ平均 LAS を 0.84% 向上させ、誤差削減を 7.88%達成。
  • パーサーアンサンブルは平均 LAS の利得を 0.55% 提供し、一般化の向上により小規模木ベースでより大きな利得を得る。
  • クロス-domain 木ベース連結は小規模木ベース言語に利益をもたらす一方、large-treebanks は連結によってほとんど影響がないか、負の影響を受ける可能性がある。
  • クロスリンガル木ベース連結は限られた利点しかなく、改善は英国英語のみで見られ、先進的な転送手法が依然として必要であることを示唆する。
  • 前処理の改善、特にトークン化と文 segmentation は解析性能を大幅に向上させ、いくつかの木ベースで大きな改善を示す(例:複数の言語で顕著な LAS の改善)。
  • 最終提出は平均 LAS を 75.84 に達し、公式 CoNLL-2018 テストセットで LAS に基づく第一位を獲得した(アンサンブルあり)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。