Skip to main content
QUICK REVIEW

[論文レビュー] Evaluating Contextualized Embeddings on 54 Languages in POS Tagging, Lemmatization and Dependency Parsing

Milan Straka, Jana Straková|arXiv (Cornell University)|Aug 20, 2019
Natural Language Processing Techniques参考文献 14被引用数 38
ひとこと要約

この研究は、BERT、Flair、ELMoの文脈化埋め込みを54言語(89 UD 2.3コーパス)にわたり比較し、UDPipe 2.0への入力として用いて、最先端の結果を達成し、埋め込みが従来の語彙特徴および文字特徴を補完する方法を詳述します。

ABSTRACT

We present an extensive evaluation of three recently proposed methods for contextualized embeddings on 89 corpora in 54 languages of the Universal Dependencies 2.3 in three tasks: POS tagging, lemmatization, and dependency parsing. Employing the BERT, Flair and ELMo as pretrained embedding inputs in a strong baseline of UDPipe 2.0, one of the best-performing systems of the CoNLL 2018 Shared Task and an overall winner of the EPE 2018, we present a one-to-one comparison of the three contextualized word embedding methods, as well as a comparison with word2vec-like pretrained embeddings and with end-to-end character-level word embeddings. We report state-of-the-art results in all three tasks as compared to results on UD 2.2 in the CoNLL 2018 Shared Task.

研究の動機と目的

  • 3つの文脈化埋め込み手法(BERT、Flair、ELMo)を強力な多言語構文解析システムの追加入力として評価する。
  • 54言語の89つのUD 2.3木構造データベースを跨ぐ3つの埋め込みアプローチを一対一で比較する。
  • 文脈化埋め込みと従来のword2vec様の埋め込みおよびエンドツーエンドの文字レベル語彙埋め込みを比較する。
  • 言語リソースの影響を特定し、多言語版BERTと言語特異的BERTのどちらがより良い性能を発揮するかを分析する。
  • UD 2.2に対する最先端の結果を報告し、UD 2.3での性能を文書化する。

提案手法

  • POSタグ付け、lemmatization、依存構文解析のための強力なベースラインシステムとしてUDPipe 2.0を使用する。
  • 入力語を3つの文脈化表現(BERT、Flair、ELMo)で埋め込み、サブワード/最終層出力を平均して語レベルの埋め込みを得る。
  • BaselineとしてFastText語彙埋め込み(WE)および文字レベル語彙埋め込み(CLE)と比較する。
  • 多言語版BERTと言語特異的BERTのモデルを用い、FlairとELMoが利用可能な場合にはそれらも用いる。
  • UD 2.3木構造データベース(89コーパス、54言語)で評価し、複数の木構造データが存在する場合は macro-averaged 結果を報告する。

実験結果

リサーチクエスチョン

  • RQ1BERT、Flair、ELMoの文脈化埋め込みを、複数言語・タスク(POSタグ付け、lemmatization、依存構文解析)へUDPipe 2.0の入力として使用した場合、どのような比較結果になるか。
  • RQ2文脈化埋め込みは語彙埋め込みおよび文字レベル特徴に補完情報を提供するか、またそれらを組み合わせると性能はどう変化するか。
  • RQ3多言語版BERTは言語特異的BERTほどには効果が高くないのか、言語とデータ入手性によって性能はどう変わるか。
  • RQ4UD 2.3におけるUPOS、XPOS、形態的特徴、lemmata、UAS、LAS、MLAS、BLEXへの文脈化埋め込みの相対的影響はどの程度か。
  • RQ5UD 2.3タスクで最先端の結果を達成するための最も良い性能構成(埋め込みの組み合わせ)は何か。

主な発見

  • 文脈化埋め込みをUDPipe 2.0の入力として加えると、言語やタスクを跨いで大幅な性能向上が得られる。
  • BERT埋め込みは最大の改善をもたらし、UD Shared Task風の評価で最先端の結果を達成し、WEおよびCLEへの補完情報として最も有用。
  • Flair埋め込みは形態的・綴字情報を捉え、POSタグ付けとlemmatizationで高く、依存構文解析ではBERTに比較してやや劣る。
  • ELMo埋め込み(英語のみ)は英語木構造データベースで強力に機能するが、解析では一般的にBERTに遅れをとる;WE/CLEとELMoを組み合わせることは一部の指標で有益。
  • WE+CLE+BERT(Flairが利用可能な場合はそれも)を組み合わせると全体的な最良の結果を生み出し、UPOSで最大16.9%程度、解析で最大14.5%程度の相対的誤差削減が見られ、他の指標でも小さな改善がある;多言語BERTは特に英語で言語特異的BERTの性能に匹敵することが多く、より大きな事前学習データの恩恵を受ける。
  • UD 2.3では、BERT+Flair+WE+CLEが多くの設定で最も強い結果を出し、言語特有のニュアンスがある:BERTトレーニングに含まれない言語でも多言語BERTの恩恵を受ける場合がある。
  • 89個のUD 2.3木構造データベース全体では、UPOS、UAS、LASの平均効果が顕著な向上を示す一方、lemmatizationは言語と埋め込みの組み合わせによって結果が分かれる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。