QUICK REVIEW

[論文レビュー] Learned in Translation: Contextualized Word Vectors

Bryan McCann, James Bradbury|arXiv (Cornell University)|Aug 1, 2017

Topic Modeling被引用数 240

ひとこと要約

本論文はCoVeを導入します。CoVeはMT-trained MT-LSTMエンコーダから派生した文脈ベクトルであり、CoVeを単語埋め込みに追加することで、単語ベクトルだけの場合よりも感情分析、含意、QAを含む複数のNLPタスクの性能が向上することを示します。

ABSTRACT

Computer vision has benefited from initializing multiple deep layers with weights pretrained on large supervised training sets like ImageNet. Natural language processing (NLP) typically sees initialization of only the lowest layer of deep models with pretrained word vectors. In this paper, we use a deep LSTM encoder from an attentional sequence-to-sequence model trained for machine translation (MT) to contextualize word vectors. We show that adding these context vectors (CoVe) improves performance over using only unsupervised word and character vectors on a wide variety of common NLP tasks: sentiment analysis (SST, IMDb), question classification (TREC), entailment (SNLI), and question answering (SQuAD). For fine-grained sentiment analysis and entailment, CoVe improves performance of our baseline models to the state of the art.

研究の動機と目的

機械翻訳で訓練されたエンコーダ表現を活用してNLPにおける転移学習を動機づける。これは視覚領域の事前訓練済みCNNに類似している。
下流タスクのトークンレベルの文脈ベクトルを提供できる再利用可能なMTベースのエンコーダを開発する。
CoVeを単語埋め込みに追加すると、分類、含意、質問応答タスクの性能が向上することを示す。
CoVeからの下流の利得に対するMTデータの量と品質がどのように影響するかを調査する。

提案手法

英語→ドイツ語のMTデータで2層の双方向LSTMエンコーダ（MT-LSTM）を訓練し、各入力トークンの文脈表現を生成する。
CoVe(w)をMT-LSTM(GloVe(w))として定義し、下流モデル向けにCoVeとGloVe語ベクトルを結合する。
CoVeで強化された入力系列からタスク表現を生成するために、双方向アテンションとプーリングを用いる一般的なbiattentive分類ネットワーク（BCN）を開発する。
CoVeを取り入れるように、質問応答のためにDynamic Coattention Networkフレームワークを適応する。
データサイズの効果を研究するため、MT-Small、MT-Medium、MT-Largeで訓練したMT-LSTMsを用いて実験する。
CoVeを基礎となる語ベクトルおよび文字n-gram埋め込みと比較し、SST、SNLI、SQuAD、TREC、IMDbで評価する。

実験結果

リサーチクエスチョン

RQ1CoVeを組み込むことで、下流のNLPタスクの性能は、ベースラインの事前訓練済み語ベクトルだけの場合と比べて改善されるか？
RQ2MT訓練データの規模・品質は、さまざまなタスクにおけるCoVeの有効性にどのように影響するか？
RQ3CoVe表現は、さまざまなNLPタスクにおいて語ベクトルおよび文字レベル特徴と補完的な関係にあるか？
RQ4MT訓練済みエンコーダは、単文・複数文の分類、含意、QAタスクを横断して効果的に転移できるか？

主な発見

CoVeは複数のタスクでGloVeベクトルに追加した場合、検証性能を一貫して改善する。
CoVeは文字n-gram埋め込みのみを使用するよりも大きな向上をもたらし、CoVeと文字特徴を組み合わせると一部のタスクでさらなる改善を得られる。
より大きいMTデータセット（MT-Large）で訓練したMT-LSTMsは、より小さなデータセットより下流での利得が大きい。
報告された構成でCoVeを用いるとSST-2、SST-5、SNLIで最先端の結果が達成される。
SQuADでは、強力なモデル（DCN）にCoVeを追加することで、複数のベースラインと比較して正解率（Exact Match）とF1を改善する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。