Skip to main content
QUICK REVIEW

[論文レビュー] Language as a Latent Variable: Discrete Generative Models for Sentence Compression

Yishu Miao, Phil Blunsom|arXiv (Cornell University)|Sep 23, 2016
Topic Modeling参考文献 27被引用数 40
ひとこと要約

本論文では、事前学習済み言語モデルの事前分布から抽出された圧縮文を潜在変数とする離散的潜在変数言語モデルを備えた変分オートエンコーダを提案する。教師ありおよび教師なしデータの両方で生成的(ASC)および判別的(FSC)モデルを共同で学習することで、ラベル付きデータが著しく少ない状況ですでに最先端の性能を達成し、完全に教師ありのモデルを上回ることすら可能である。

ABSTRACT

In this work we explore deep generative models of text in which the latent representation of a document is itself drawn from a discrete language model distribution. We formulate a variational auto-encoder for inference in this model and apply it to the task of compressing sentences. In this application the generative model first draws a latent summary sentence from a background language model, and then subsequently draws the observed sentence conditioned on this latent summary. In our empirical evaluation we show that generative formulations of both abstractive and extractive compression yield state-of-the-art results when trained on a large amount of supervised data. Further, we explore semi-supervised compression scenarios where we show that it is possible to achieve performance competitive with previously proposed supervised models while training on a fraction of the supervised data.

研究の動機と目的

  • 文書要約のための深層生成モデルを開発し、言語を離散的潜在変数として扱う。
  • 変分オートエンコーダーの枠組みを用いて教師あり学習と教師なし学習を統合することで、文書要約の性能を向上させる。
  • 生成モデルが潜在要約の周辺分布を計算できる能力を活用して、大量のラベルなしテキストを活用することで、半教師あり学習を実現する。
  • 共有コンポーネントを用いて生成モデル(ASC)と判別モデル(FSC)を共同で学習させることで、モデルの汎化性能を向上させる。
  • 生成的アプローチが抽出的要約および要約的要約の両タスクで、最先端の結果に達するか、それを上回ることを示す。

提案手法

  • 潜在変数が事前学習済み言語モデルの事前分布から抽出された圧縮文である変分オートエンコーダ(VAE)フレームワークを採用する。
  • 推論ネットワーク(エンコーダ・コンプレッサー)はポインタネットワークを用い、元の文の語のみに注目することで抽出的要約を生成し、探索空間を縮小し、学習安定性を向上させる。
  • 再構成ネットワーク(コンプレッサー・デコーダ)は、RNNベースのデコーダとソフトアテンションを用いて、潜在的圧縮文から元の文を再構成する。
  • 離散的サンプリングの非微分可能性に対処するため、勾配分散を低減する目的で、ポインタネットワークを用いたREINFORCEアルゴリズムを採用する。
  • 判別的FSCモデルと生成的ASCモデルの間でポインタネットワークを共有することで、共同学習と半教師あり学習を実現する。
  • FSCモデルはラベル付きデータを用いて交差エントロピー目的関数で学習され、ASCモデルはラベルなしデータを用いて変分下界で学習される。

実験結果

リサーチクエスチョン

  • RQ1VAEフレームワーク内で言語を離散的潜在変数としてモデル化することで、文書要約の性能が向上するか?
  • RQ2大量のラベルなしデータで学習された生成モデルが、ラベル付きデータのわずかな部分で学習された判別モデルと同等の性能を達成できるか?
  • RQ3生成的(ASC)と判別的(FSC)モデルを共同で学習させることで、それぞれを別々に学習させるよりも汎化性能が向上するか?
  • RQ4ポインタネットワークを用いた推論ネットワークは、初期学習段階で抽出的要約の生成を効果的にガイドできるか?
  • RQ5VAEフレームワークを介した教師ありと教師なし学習の統合が、要約的および抽出的要約タスクの性能にどのように影響するか?

主な発見

  • 全教師ありデータセットで学習した際、共同学習モデル(ASC+FSC)はGigaword文書要約データセットで、これまでに発表されたすべての結果を上回った。
  • ラベル付きデータのわずかな部分での学習でも、完全に教師ありの最先端モデルと同等の性能を達成しており、強力な半教師あり学習能力を示した。
  • 推論ネットワークにおけるポインタネットワークの使用は、初期学習段階での学習安定性とサンプル品質を顕著に向上させた。
  • 共有されたポインタネットワークにより、ラベルなしデータからの知識が効果的に判別モデルに伝達され、要約的要約の性能が向上した。
  • 生成モデル(ASC)は、教師なし学習でも、言語モデルの事前分布を活用することで、妥当でスムーズな要約文を効果的に生成できた。
  • 要約的要約出力(ASC a および FSC a)は抽出的出力よりもより自然で簡潔であり、共同モデルは単体の各コンponentよりも優れた品質の結果を生成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。