QUICK REVIEW

[論文レビュー] Adversarial Learning for Neural Dialogue Generation

Jiwei Li, Will Monroe|arXiv (Cornell University)|Jan 23, 2017

Topic Modeling参考文献 45被引用数 221

ひとこと要約

本論文は、対話生成器を敵対的強化学習を通じて識別器に対抗させ、人間らしいオープンドメインの応答を生成する。敵対的評価を指標として提案し、複数の指標で標準の Seq2Seq ベースラインより改善を示す。

ABSTRACT

In this paper, drawing intuition from the Turing test, we propose using adversarial training for open-domain dialogue generation: the system is trained to produce sequences that are indistinguishable from human-generated dialogue utterances. We cast the task as a reinforcement learning (RL) problem where we jointly train two systems, a generative model to produce response sequences, and a discriminator---analagous to the human evaluator in the Turing test--- to distinguish between the human-generated dialogues and the machine-generated ones. The outputs from the discriminator are then used as rewards for the generative model, pushing the system to generate dialogues that mostly resemble human dialogues. In addition to adversarial training we describe a model for adversarial {\em evaluation} that uses success in fooling an adversary as a dialogue evaluation metric, while avoiding a number of potential pitfalls. Experimental results on several metrics, including adversarial evaluation, demonstrate that the adversarially-trained system generates higher-quality responses than previous baselines.

研究の動機と目的

オープンドメインの対話生成を、退屈で繰り返し的な応答のために最大尤度訓練だけに頼るのではなく動機づける。
ディスクリミネーター報酬の下で人間に見分けられない対話を生成するようジェネレータを学習させる敵対的訓練フレームワークを提案する。
各生成ステップでの報酬提供と敵対的に訓練された対話システムの信頼性ある評価の戦略を開発・分析する。
敵対的訓練が相互作用の質を向上させるか、またそのようなモデルを堅牢に評価する方法を調査する。

提案手法

対話生成をジェネレータ G とディスクリミネータ D を用いた強化学習問題として定式化する。
対話履歴を表現する階層的エンコーダと応答を生成する Seq2Seq に類似したジェネレータを使用する。
ディスクリミネータのスコア Q+({x,y}) を生成発話の報酬として用い、方策勾配（REINFORCE）で訓練する。
生成中間報酬を割り当てるための中間系列用のモンテカルロ探索または部分系列用に設計されたディスクリミネータを導入する「Reward for Every Generation Step (REGS)」。
安定した訓練のために教師付き学習の併用や他の報酬戦略を取り入れ、敵対的更新とMLE更新を混合する。
標準の Seq2Seq 目的でジェネレータを事前訓練し、実データ vs. 生成データでディスクリミネータを前訓練する。

実験結果

リサーチクエスチョン

RQ1敵対的強化学習は標準の Seq2Seq 訓練より高品質なオープンドメイン対話応答を生成するか。
RQ2自動評価と敵対的指標を用いて敵対的に訓練された対話システムを信頼性高く評価できるか。
RQ3生成ごとの報酬構造（生成ごと vs. 全体系列）と訓練安定化手段は対話品質をどのように改善するか。
RQ4敵対的訓練は単一ターン・マルチターン評価で強力なベースライン（MLE、MI再ランク付きビーム探索）と比較してどのように性能を示すか。

主な発見

モデル	AdverSuc	機械対乱数
MLE-BS	0.037	0.942
MLE-Greedy	0.049	0.945
MMI+ p(t\|s)	0.073	0.953
MMI - p(t)	0.090	0.880
Sampling	0.372	0.679
Adver-Reinforce	0.080	0.945
Adver-REGS	0.098	0.952

敵対的に訓練されたモデルは、評価に基づく従来の Seq2Seq ベースラインより高い対話応答品質を達成する。
Adversarial Evaluation via Adversary Success (AdverSuc) は、提案モデルが評価者を欺く能力でベースラインを上回ることを示し、提案手法の中で REGS が最も良い性能を示した。
人間評価は、単一ターンおよびマルチターンの対話の両方で、敵対的枠組み下で顕著な品質向上を示す。
Monte Carlo ベースの中間報酬(REGS) が AdverSup 実験で vanilla REINFORCE より良い性能を示す。
サンプリングベースのデコードは AdverSuc を改善する一方、機械対乱数の識別性を低下させる可能性があることを示し、評価上の留意点を指摘。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。