Skip to main content
QUICK REVIEW

[論文レビュー] Toward Diverse Text Generation with Inverse Reinforcement Learning

Zhan Shi, Xinchi Chen|arXiv (Cornell University)|Apr 30, 2018
Topic Modeling参考文献 17被引用数 27
ひとこと要約

本稿では、敵対的テキスト生成モデルにおける報酬の疎らさとモード崩壊を解消するため、逆強化学習(IRL)フレームワークをテキスト生成に提案する。状態ごとの密集報酬関数を学習し、エントロピー正則化を施した方策最適化を行うことで、先行手法に比べより多様で質の高いテキストを生成し、COCOおよびIMDBデータセットで最先端の性能を達成した。

ABSTRACT

Text generation is a crucial task in NLP. Recently, several adversarial generative models have been proposed to improve the exposure bias problem in text generation. Though these models gain great success, they still suffer from the problems of reward sparsity and mode collapse. In order to address these two problems, in this paper, we employ inverse reinforcement learning (IRL) for text generation. Specifically, the IRL framework learns a reward function on training data, and then an optimal policy to maximum the expected total reward. Similar to the adversarial models, the reward and policy function in IRL are optimized alternately. Our method has two advantages: (1) the reward function can produce more dense reward signals. (2) the generation policy, trained by "entropy regularized" policy gradient, encourages to generate more diversified texts. Experiment results demonstrate that our proposed method can generate higher quality texts than the previous methods.

研究の動機と目的

  • 敵対的テキスト生成モデルにおける報酬の疎らさとモード崩壊を解消すること。
  • 専門家のデモンストレーションから密集報酬関数を学習することで、テキスト生成の質を向上させること。
  • エントロピー正則化付き方策最適化により、生成テキストの多様性を促進すること。
  • BLEUに基づく新しい評価指標を開発し、生成テキストの質をよりよく評価すること。
  • 標準のGANベースのアプローチとは異なる、新しいIRLベースの視点をテキスト生成に提供すること。

提案手法

  • 専門家のデモンストレーションを学習シーケンスとするテキスト生成を、逆強化学習(IRL)問題として定式化する。
  • 報酬近似器を用いて、実際の学習シーケンスに高い報酬を、生成シーケンスに低い報酬を割り当てる報酬関数を学習する。
  • エントロピー正則化を施した方策勾配法を用いて生成器を最適化し、探索性と多様性を促進する。
  • GANに類似した方法で、報酬関数と生成器を交互に学習するが、ステップごとの密集報酬を用いる。
  • 安定した学習と一般化性能の向上を図るため、最大エントロピーIRLフレームワークを採用する。
  • 流暢さ、関連性、カバレッジを評価するため、BLEUに基づく3つの新しい評価指標(BLEUF、BLEUB、BLEUHA)を導入する。

実験結果

リサーチクエスチョン

  • RQ1逆強化学習は、テキスト生成における報酬の疎らさを効果的に軽減できるか?
  • RQ2IRLベースのテキスト生成は、敵対的モデルと比較してモード崩壊を低減し、多様性を向上させられるか?
  • RQ3本手法は、映画レビューなどの長文テキスト生成タスクにおいてどのように性能を発揮するか?
  • RQ4新規に提案されたBLEUベースの指標は、標準的な指標よりも生成テキストの質をよりよく捉えられるか?
  • RQ5人間評価において、IRLフレームワークは既存のGANベースの手法を上回るか?

主な発見

  • COCO画像キャプションデータセットでは、IRLモデルがBLEUスコア0.550を達成し、MLE(0.205)、SeqGAN(0.450)、LeakGAN(0.543)を上回った。
  • IMDB映画レビューデータセットでは、IRLモデルがBLEUスコア0.463を達成し、MLE(0.138)、SeqGAN(0.205)、LeakGAN(0.385)を著しく上回った。
  • 人間によるチューリングテストでは、特に長文シーケンスにおいて、IRLで生成されたテキストがMLE、SeqGAN、LeakGANのものよりも現実的であると評価された。
  • 事例研究では、IRLがより流暢で一貫性があり、多様性に富み、意味的整合性が高く、内容が豊富な文を生成していることが示された。
  • 提案された指標BLEUF、BLEUB、BLEUHAは、人間の判断と強い相関を示し、テキスト品質のより洗練された評価を可能にした。
  • 本手法は、ステップごとの報酬を学習することで、モード崩壊を効果的に低減し、より密集した報酬信号を提供し、安定的かつ効果的な学習を実現した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。