Skip to main content
QUICK REVIEW

[論文レビュー] Learning to Compute Word Embeddings On the Fly

Dzmitry Bahdanau, Tom Bosc|arXiv (Cornell University)|Jun 1, 2017
Topic Modeling参考文献 23被引用数 67
ひとこと要約

本論文は、補助定義(例: 辞書の定義、つづりなど)から予測されるオンザフライ embeddings を導入し、希少語を扱い、タスクの性能を向上させ、事前学習済みの埋め込みとのギャップを狭める。

ABSTRACT

Words in natural language follow a Zipfian distribution whereby some words are frequent but most are rare. Learning representations for words in the "long tail" of this distribution requires enormous amounts of data. Representations of rare words trained directly on end tasks are usually poor, requiring us to pre-train embeddings on external data, or treat all rare words as out-of-vocabulary words with a unique representation. We provide a method for predicting embeddings of rare words on the fly from small amounts of auxiliary data with a network trained end-to-end for the downstream task. We show that this improves results against baselines where embeddings are trained on the end task for reading comprehension, recognizing textual entailment and language modeling.

研究の動機と目的

  • Zipf 分布の影響による希少語問題と固定語彙の限界を動機づける。
  • 補助データから語彙埋め込みを計算する方法を提案し、埋め込みの完全なセットを維持する代わりに用いる。
  • 読解、言い換え推論、言語モデリングのタスクで手法を実証する。
  • 補助データのアプローチがタスク固有の埋め込みを上回り、事前学習ベクトルとのギャップをいくつか縮めることを示す。

提案手法

  • 定義リーダーを定義し、補助データ d(w)(定義または綴り)から w に特化した埋め込み e_d(w) を計算する。
  • e_d(w) を語彙内埋め込み e(w) と組み合わせて e_c(w)=e(w)+W e_d(w)(または類似の変種)とする。
  • 複数の定義を並列処理し、エンドツーエンド学習を可能にして、タスク固有の埋め込みとの意味的整合を保持する。
  • 定義エンコーダを3つ試す:平均プーリング、線形変換付き平均プーリング、定義のLSTMリーダー;綴りはLSTMリーダーを使用。
  • GloVepretraining の有無で SQuAD(読解)、SNLI/MultiNLI(テキスト的含意)、OBW(言語モデリング)を評価。

実験結果

リサーチクエスチョン

  • RQ1補助データから計算されたオンザフライ埋め込みは、タスクのみを学習した埋め込みと比較してNLPタスクの性能を改善できるか。
  • RQ2辞書ベースの定義と綴りベースの補助データは、希少語の表現にどのように寄与するか。
  • RQ3このような補助データは、GloVe のような事前学習埋め込みへのギャップをタスク間でどの程度埋められるか。
  • RQ4データ規模が異なるタスク(SQuAD、SNLI/MultiNLI、言語モデリング)に対して実用的な影響はどうなるか。

主な発見

modelEM devEM test
ベースライン (B)52.58-
辞書, MP, 和, 逆伝播なし (D1)56.27-
辞書, MP, 和 (D2)57.03-
辞書, MP, 変換と和 (D3)58.9-
辞書, LSTM (D4)58.78-
綴り (S)61.9462.9
綴り+lemma (SL)62.462.6
綴り+辞書 (SD)63.0664.08
GloVe (G)64.19-
  • 補助データは、タスク目的のみで学習したベースラインよりもすべての実験で性能を改善する。
  • 辞書ベースの定義(単独または綴りとの併用)は SQuAD の EM を高め、SD が S と比較して優れ、開発テストで GloVe に近づく。
  • 綴り情報は特に SQuAD に有益で、辞書と綴りを組み合わせた SD は読解の全体で最高の結果を出す。
  • 辞書の定義は SNLI および MultiNLI で、 scratch からの学習と事前学習済み GloVe のギャップの約 40% を埋め、両データセットで一貫した利得を示す。
  • 言語モデリングでは、綴りと辞書情報を追加するとパープレキシティが低下し、全データセットを用いた場合に GloVe へのギャップが縮まる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。