QUICK REVIEW

[論文レビュー] Language Modeling Teaches You More Syntax than Translation Does: Lessons Learned Through Auxiliary Task Analysis

Kelly Zhang, Samuel R. Bowman|arXiv (Cornell University)|Sep 26, 2018

Topic Modeling参考文献 22被引用数 41

ひとこと要約

この論文は4つの事前学習目的（言語モデリング、翻訳、skip-thought、オートエンコーディング）を比較し、双方向言語モデルが POS tagging および CCG 超タグ付けの最も強い統語表現を生み出すことを示し、多くの場合翻訳エンコーダを上回り、補助タスクのデータが豊富な場合にはランダム LSTM にも匹敵することがある。

ABSTRACT

Recent work using auxiliary prediction task classifiers to investigate the properties of LSTM representations has begun to shed light on why pretrained representations, like ELMo (Peters et al., 2018) and CoVe (McCann et al., 2017), are so beneficial for neural language understanding models. We still, though, do not yet have a clear understanding of how the choice of pretraining objective affects the type of linguistic information that models learn. With this in mind, we compare four objectives---language modeling, translation, skip-thought, and autoencoding---on their ability to induce syntactic and part-of-speech information. We make a fair comparison between the tasks by holding constant the quantity and genre of the training data, as well as the LSTM architecture. We find that representations from language models consistently perform best on our syntactic auxiliary prediction tasks, even when trained on relatively small amounts of data. These results suggest that language modeling may be the best data-rich pretraining task for transfer learning applications requiring syntactic information. We also find that the representations from randomly-initialized, frozen LSTMs perform strikingly well on our syntactic auxiliary tasks, but this effect disappears when the amount of training data for the auxiliary tasks is reduced.

研究の動機と目的

事前学習目的が学習された言語表現をどのように形成するかの理解を動機づける。
データ源、データ量、およびモデルアーキテクチャを統制して事前学習タスクを公正に比較する。
POS tagging および CCG supertagging の補助分類器を用いて、事前学習表現に含まれる統語知識を評価する。
学習データ量とランダム性が学習表現に与える影響を検討する。

提案手法

English-German translation data およびモノリンガルデータに対して、次の4つの目的（言語モデリング（LM）、翻訳、skip-thought、オートエンコーディング）で複数の LSTM ベースのモデルを訓練する。
前向きおよび後向きの LM 隠れ状態を連結してトークン表現とすることで、双方向 LM（BiLM）表現を用いる。
事前学習済みエンコーダを固定し、POS taggingおよびCCG supertaggingの補助分類器（MLP）を訓練して、隠れ状態における統語情報を探る。
学習されていない（ランダム初期化された）LSTM および WC-MFC ベースラインと比較して、学習済み情報と memorized 情報を分離する。
訓練データ量（1M、5M、15M、63M 文）および分類器データ（1%、10%、100%）を変化させてデータ効果を研究する。
POS および CCG tagging のデータ領域を制御するために WSJ/PTB および CCG Bank データセットを用いる。

実験結果

リサーチクエスチョン

RQ1訓練タスク（LM、翻訳、skip-thought、オートエンコーディング）は、統語情報の符号化にどのような影響を与えるか？
RQ2訓練データ量は、事前学習表現が統語補助タスクをサポートする能力に影響を与えるか？
RQ3補助分類器に十分なデータが与えられた場合、ランダム初期化されたエンコーダは統語タグ付けをサポートできるか？
RQ4層やアーキテクチャの選択は、隠れ表現に捕捉される統語情報にどのように影響するか？
RQ5双方向コンテキスト（BiLMs）は、単方向または翻訳ベースのエンコーダより統語転送に有利であるか？

主な発見

双方向言語モデル（BiLMs）は、データ規模が異なる場合でもPOS taggingおよびCCG supertaggingにおいて、他のタスク（翻訳、skip-thought、オートエンコーディング）を一貫して上回る。
BiLMs は 1,000,000文程度のデータで訓練された場合でも、はるかに大規模なデータで訓練された翻訳およびskip-thoughtモデルを上回ることがあり、データ効率の良い統語学習を示す。
同じデータでもBiLMsはしばしば翻訳エンコーダを上回り、CCG supertaggingの利点がPOS taggingより大きい。
補助分類器に豊富なデータがある場合、ランダム初期化されたLSTMsは予想外に良い性能を示すが、分類器データが限られると性能が崩れ、 memorization（暗記）を示すだけで genuine な統語エンコードではないことを示す。
単語同定プローブは、訓練済みエンコーダが未訓練エンコーダよりタグ付けタスクで優れていることを示しており、学習された表現が単なる隣接語情報以上を捉えていることを確認する。
低レイヤーのLSTMはより直接的な隣接情報を保持し、高レイヤーはより離れた文脈を符号化する、深さが統語構造の受容野を拡張することを示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。