Skip to main content
QUICK REVIEW

[論文レビュー] What you can cram into a single vector: Probing sentence embeddings for linguistic properties

Alexis Conneau, Germán Kruszewski|arXiv (Cornell University)|May 2, 2018
Topic Modeling参考文献 41被引用数 276
ひとこと要約

この論文は、さまざまなエンコーダや学習方法に跨る文埋め込みにどの言語情報が符号化されているかを分析する10の probing task を導入し、探査結果を下流タスクと関連付ける。

ABSTRACT

Although much effort has recently been devoted to training high-quality sentence embeddings, we still have a poor understanding of what they are capturing. "Downstream" tasks, often based on sentence classification, are commonly used to evaluate the quality of sentence representations. The complexity of the tasks makes it however difficult to infer what kind of information is present in the representations. We introduce here 10 probing tasks designed to capture simple linguistic features of sentences, and we use them to study embeddings generated by three different encoders trained in eight distinct ways, uncovering intriguing properties of both encoders and training methods.

研究の動機と目的

  • 多様なアーキテクチャにわたって固定長の文埋め込みに保持される言語的特性を評価する。
  • プローブ課題の設計を体系的に制御し、モデル間の比較を可能にする。
  • 訓練目的が埋め込みにエンコードされる言語情報にどのように影響するかを検討する。
  • probing task の性能と下流の分類・推論タスクを関連付ける。

提案手法

  • 単一文入力を用いて表層・統語・意味的性質を対象とする10個の probing task を定義する。
  • 多様な目的で訓練された複数のエンコーダ(BiLSTM-last/max、BiLSTM-max、Gated ConvNet)を評価する。
  • NMT、NLI、AutoEncoder、Seq2Tree、SkipThought、無監視ベースライン、そして未訓練のランダム投影を含む訓練済みエンコーダを訓練する。
  • 事前に学習された埋め込みの上に固定の分類器(MLP)を用いて probing task ラベルを予測する。
  • 探査結果を下流の SentEval ベンチマークと比較し相関を評価する。
  • probing データとツールを公開する。

実験結果

リサーチクエスチョン

  • RQ1異なる文の埋め込みからどのような言語的特性が保持されるまたは回復可能か?
  • RQ2エンコーダのアーキテクチャと訓練目的は、文表現にエンコードされた情報をどのように形成するか?
  • RQ3 probing task の結果は下流の NLP タスクの性能と相関するか?
  • RQ4訓練されていないアーキテクチャは文表現の強力な事前情報を提供できるか、訓練済みモデルとどう比較されるか?

主な発見

  • Bag-of-Vectors (BoV) は意外にも特定の文の性質、特に表層といくつかの統語的手掛かりを保持するが、語順感度には欠ける。
  • 同じ目的で訓練されたエンコーディングアーキテクチャは、異なる言語特性を持つ埋め込みを生み出し、アーキテクチャの事前情報を浮き彫りにする。
  • BiLSTM-max は訓練前でも強い probing 性能を示すことが多く、固有のアーキテクチャバイアスを示唆している。
  • NMT 訓練済みのエンコーダは、NLI で訓練されたものより probe タスクで言語的認識が高い傾向があるが、NLI は下流タスクのための浅い語レベルの特徴をよりよく保持する。
  • WC (word content) と下流タスクには正の相関があり、SentLen (sentence length) は多くの下流タスクと負の相関を示す;SOMO と CoordInv はより深い意味知識を probe する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。