QUICK REVIEW

[論文レビュー] Multi-Task Cross-Lingual Sequence Tagging from Scratch

Zhilin Yang, Ruslan Salakhutdinov|arXiv (Cornell University)|Mar 20, 2016

Natural Language Processing Techniques参考文献 33被引用数 197

ひとこと要約

この論文は、特徴量エンジニアリングなしで多タスク・クロス言語の結合学習を可能にする深層階層GRUとCRF層を提案し、英語・オランダ語・スペイン語のNER、英語のPOS tagging、そしてchunkingで最先端の結果を達成する。

ABSTRACT

We present a deep hierarchical recurrent neural network for sequence tagging. Given a sequence of words, our model employs deep gated recurrent units on both character and word levels to encode morphology and context information, and applies a conditional random field layer to predict the tags. Our model is task independent, language independent, and feature engineering free. We further extend our model to multi-task and cross-lingual joint training by sharing the architecture and parameters. Our model achieves state-of-the-art results in multiple languages on several benchmark tasks including POS tagging, chunking, and NER. We also demonstrate that multi-task and cross-lingual joint training can improve the performance in various cases.

研究の動機と目的

特徴量エンジニアリングを回避したタスク依存・言語非依存のシーケンス tagging モデルを動機づける。
言語内でのマルチタスク学習および言語間横断学習を調査する。
多様なタスク（POS、chunking、NER）および言語（English、Dutch、Spanish）での有効性を示す。
アーキテクチャとパラメータを共有することで、並列データなしで性能を向上させられることを示す。

提案手法

文字レベルと単語レベルの深い階層型ゲート付きリカレントユニット（GRU）を用いて形態素と文脈をエンコードする。
手作りの特徴量を使わず表現を学習するために、文字レベルと単語レベルの両方で双方向の多層GRUを適用する。
単語レベルの表現をCRF層と組み合わせて、一階依存を持つタグ列を予測する。
予測タグ列と真のタグ列の間のコスト（Hamming損失）を取り入れた最大マージン拡張CRF目的で学習する。
マルチタスクおよびクロスリンガルのためにネットワークアーキテクチャとパラメータを共有して、結合訓練を可能にする。
訓練中に事前学習済み単語埋め込み（EnglishにはSENNA、Dutch/SpanishにはPolyglot）を微調整する。

実験結果

リサーチクエスチョン

RQ1タスク依存・言語非依存のニューラルシーケンス tagging モデルは、POS tagging、chunking、NER の分野で競争力があり、最先端の結果を達成できるか。
RQ2言語内でのマルチタスク結合訓練は、関連するタグ付けタスクの性能を改善するか。
RQ3並列コーパスなしで、言語間の形態素的類似性を活用したクロスリンガル結合訓練は、多言語設定で性能を向上させるか。
RQ4文字レベルの形態素と単語レベルの意味論の貢献は、全体のモデル性能にどの程度寄与するか。

主な発見

CoNLL 2000 English chunking での最先端結果を達成（95.41%、joint training 使用）。
CoNLL 2002 Dutch NER での最先端結果を達成（85.19%、joint training 使用）。
CoNLL 2002 Spanish NER での最先端結果を達成（85.77%、joint training 使用）。
CoNLL 2003 English NER での最先端結果を達成（91.20%、gazetteer features を用いる）。
Penn Treebank POS tagging で堅実な結果を達成（97.55% accuracy; 文献上2位）。
Joint training の改善には Span NER +1.08 および English chunking +0.75 などが含まれ、ラベリング率に応じて様々な利得がある。クロスリンガル結合訓練は形態素共有の利点を示している（例: 国名形態の可視化）。
単語埋め込みと文字レベルGRUの両方が性能向上に寄与しており、単語埋め込みの寄与がより大きい。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。