Skip to main content
QUICK REVIEW

[論文レビュー] Multi-Task Cross-Lingual Sequence Tagging from Scratch

Zhilin Yang, Ruslan Salakhutdinov|arXiv (Cornell University)|Mar 20, 2016
Natural Language Processing Techniques参考文献 33被引用数 197
ひとこと要約

この論文は、特徴量エンジニアリングなしで多タスク・クロス言語の結合学習を可能にする深層階層GRUとCRF層を提案し、英語・オランダ語・スペイン語のNER、英語のPOS tagging、そしてchunkingで最先端の結果を達成する。

ABSTRACT

We present a deep hierarchical recurrent neural network for sequence tagging. Given a sequence of words, our model employs deep gated recurrent units on both character and word levels to encode morphology and context information, and applies a conditional random field layer to predict the tags. Our model is task independent, language independent, and feature engineering free. We further extend our model to multi-task and cross-lingual joint training by sharing the architecture and parameters. Our model achieves state-of-the-art results in multiple languages on several benchmark tasks including POS tagging, chunking, and NER. We also demonstrate that multi-task and cross-lingual joint training can improve the performance in various cases.

研究の動機と目的

  • 特徴量エンジニアリングを回避したタスク依存・言語非依存のシーケンス tagging モデルを動機づける。
  • 言語内でのマルチタスク学習および言語間横断学習を調査する。
  • 多様なタスク(POS、chunking、NER)および言語(English、Dutch、Spanish)での有効性を示す。
  • アーキテクチャとパラメータを共有することで、並列データなしで性能を向上させられることを示す。

提案手法

  • 文字レベルと単語レベルの深い階層型ゲート付きリカレントユニット(GRU)を用いて形態素と文脈をエンコードする。
  • 手作りの特徴量を使わず表現を学習するために、文字レベルと単語レベルの両方で双方向の多層GRUを適用する。
  • 単語レベルの表現をCRF層と組み合わせて、一階依存を持つタグ列を予測する。
  • 予測タグ列と真のタグ列の間のコスト(Hamming損失)を取り入れた最大マージン拡張CRF目的で学習する。
  • マルチタスクおよびクロスリンガルのためにネットワークアーキテクチャとパラメータを共有して、結合訓練を可能にする。
  • 訓練中に事前学習済み単語埋め込み(EnglishにはSENNA、Dutch/SpanishにはPolyglot)を微調整する。

実験結果

リサーチクエスチョン

  • RQ1タスク依存・言語非依存のニューラルシーケンス tagging モデルは、POS tagging、chunking、NER の分野で競争力があり、最先端の結果を達成できるか。
  • RQ2言語内でのマルチタスク結合訓練は、関連するタグ付けタスクの性能を改善するか。
  • RQ3並列コーパスなしで、言語間の形態素的類似性を活用したクロスリンガル結合訓練は、多言語設定で性能を向上させるか。
  • RQ4文字レベルの形態素と単語レベルの意味論の貢献は、全体のモデル性能にどの程度寄与するか。

主な発見

  • CoNLL 2000 English chunking での最先端結果を達成(95.41%、joint training 使用)。
  • CoNLL 2002 Dutch NER での最先端結果を達成(85.19%、joint training 使用)。
  • CoNLL 2002 Spanish NER での最先端結果を達成(85.77%、joint training 使用)。
  • CoNLL 2003 English NER での最先端結果を達成(91.20%、gazetteer features を用いる)。
  • Penn Treebank POS tagging で堅実な結果を達成(97.55% accuracy; 文献上2位)。
  • Joint training の改善には Span NER +1.08 および English chunking +0.75 などが含まれ、ラベリング率に応じて様々な利得がある。クロスリンガル結合訓練は形態素共有の利点を示している(例: 国名形態の可視化)。
  • 単語埋め込みと文字レベルGRUの両方が性能向上に寄与しており、単語埋め込みの寄与がより大きい。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。