QUICK REVIEW

[論文レビュー] Empower Sequence Labeling with Task-Aware Neural Language Model

Liyuan Liu, Jingbo Shang|arXiv (Cornell University)|Sep 13, 2017

Natural Language Processing Techniques被引用数 151

ひとこと要約

LM-LSTM-CRF は文字レベルのニューラル言語モデルと語レベルの BiLSTM-CRF を統合し、ハイウェイ層を用いてタスク固有の知識を媒介することで、追加アノテーションなしで NER、POS、およびチャンク分割において最先端の成果を達成する。

ABSTRACT

Linguistic sequence labeling is a general modeling approach that encompasses a variety of problems, such as part-of-speech tagging and named entity recognition. Recent advances in neural networks (NNs) make it possible to build reliable models without handcrafted features. However, in many cases, it is hard to obtain sufficient annotations to train these models. In this study, we develop a novel neural framework to extract abundant knowledge hidden in raw texts to empower the sequence labeling task. Besides word-level knowledge contained in pre-trained word embeddings, character-aware neural language models are incorporated to extract character-level knowledge. Transfer learning techniques are further adopted to mediate different components and guide the language model towards the key knowledge. Comparing to previous methods, these task-specific knowledge allows us to adopt a more concise model and conduct more efficient training. Different from most transfer learning methods, the proposed framework does not rely on any additional supervision. It extracts knowledge from self-contained order information of training sequences. Extensive experiments on benchmark datasets demonstrate the effectiveness of leveraging character-level knowledge and the efficiency of co-training. For example, on the CoNLL03 NER task, model training completes in about 6 hours on a single GPU, reaching F1 score of 91.71$\pm$0.10 without using any extra annotation.

研究の動機と目的

追加アノテーションなしで生テキストから抽出される知識を活用して系列ラベリングを改善する動機づけ。
語レベルと文字レベルの知識を統合した、系列ラベリングのための簡潔なニューラルフレームワークを提案する。
ハイウェイ層とターゲットとなる特徴変換を用いて、言語モデリングと系列ラベリングのタスク間の不整合を緩和する。
従来の最先端手法と比較して、標準ベンチマークにおける効率性と有効性を示す。

提案手法

未アノテーションのテキストから文字レベルの知識を捉えるために文字レベルの LSTM 言語モデルを用いる。
文字レベルの出力を二つのタスク特化空間に変換するハイウェイ層を導入する：一つは言語モデル用、もう一つは系列ラベリング用。
語レベルの BiLSTM と CRF 層を用いた系列ラベリングと、語レベル知識のために事前学習済み語彙表現をファインチューニングする。
ラベルの CRF 尤度と前向き/後向き言語モデルの尤度を結合した結合目的で、タスクの不整合を扱う媒介戦略を用いる。
効率を実現するため、GPU 上で確率的最適化、ドロップアウト、勾配クリッピングを用いてエンドツーエンドで訓練する。

実験結果

リサーチクエスチョン

RQ1文字レベル言語モデルからのタスク固有知識は、追加の監督なしで系列ラベリングを改善できるか。
RQ2ハイウェイ層を用いた媒介は、文字レベルの表現を言語モデリングと系列ラベリングの要件に効果的に整合させるか。
RQ3提案手法 LM-LSTM-CRF は、標準ベンチマークで最先端手法と比較して精度/F1 と訓練効率の観点でどう動作するか。
RQ4重い共同学習を伴わずに語レベル知識を活用するために、語彙表現のファインチューニングだけで十分か。

主な発見

LM-LSTM-CRF は外部リソースを使用しないベースラインと比較してCoNLL03 NERで最先端のF1を達成し、追加リソースを利用する手法にも匹敵する。
モデルはWSJ POS タギングおよびCoNLL00チャンク分割でも高い結果を示し、ベースラインと比べて競争力のある、または上回る性能を有する。
媒介なしで言語モデルと系列ラベリングを共訓練すると性能が低下することがあるが、文字レベル特徴を変換するハイウェイ層を用いるとこの問題を緩和できる。
語レベルコンポーネントのために事前学習済み語彙表現をファインチューニングすることは、大規模な共訓練を伴わずに語レベル知識を効率的に活用できる。
本手法は大規模な外部リソース言語モデルと比べ、1つのGPUで競争力のある時間で訓練できるなど、強い効率性を示す。
経験的分析は、LM-LSTM-CRFのより大きな隠れ状態サイズが性能を引き続き向上させる一方で、他のベースラインはより早くピークになる可能性があることを示し、タスク固有の知識抽出の利点を強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。