Skip to main content
QUICK REVIEW

[論文レビュー] End-to-End Optimization of Task-Oriented Dialogue Model with Deep Reinforcement Learning

Bing Liu, Gökhan Tür|arXiv (Cornell University)|Nov 29, 2017
Speech and dialogue systems参考文献 19被引用数 51
ひとこと要約

この論文は、監督付き学習で初期訓練を行い、その後深層強化学習で最適化してタスクの成功率を向上させ、対話の長さを短縮するニューラルエンドツーエンドのタスク指向対話システムを提案します。部品ごとのベースラインやポリシーのみのベースラインを上回っています。

ABSTRACT

In this paper, we present a neural network based task-oriented dialogue system that can be optimized end-to-end with deep reinforcement learning (RL). The system is able to track dialogue state, interface with knowledge bases, and incorporate query results into agent's responses to successfully complete task-oriented dialogues. Dialogue policy learning is conducted with a hybrid supervised and deep RL methods. We first train the dialogue agent in a supervised manner by learning directly from task-oriented dialogue corpora, and further optimize it with deep RL during its interaction with users. In the experiments on two different dialogue task domains, our model demonstrates robust performance in tracking dialogue state and producing reasonable system responses. We show that deep RL based optimization leads to significant improvement on task success rate and reduction in dialogue length comparing to supervised training model. We further show benefits of training task-oriented dialogue model end-to-end comparing to component-wise optimization with experiment results on dialogue simulations and human evaluations.

研究の動機と目的

  • エンドツーエンド最適化へ移行することによるタスク指向対話システムにおけるエラープロパゲーションの低減を動機づける。
  • 対話状態を追跡し、知識ベースを照会し、エンドツーエンドで応答を生成するニューラルアーキテクチャを開発する。
  • 監督付き学習のみと比べ、深層RLのファインチューニングがタスクの成功率と対話効率を改善することを示す。
  • シミュレーションと人間評価を通じて、エンドツーエンド最適化の利点をコンポートント指向最適化と比較して示す。

提案手法

  • 対話ターンをまたぐ対話レベルのLSTMで連続的な対話状態を維持する。
  • Bidirectional LSTMリーダーを用いてユーザ発話をエンコードし、U_kを生成する。
  • 追跡対象となるゴールのスロット分布を、softmax出力を持つスロット特化型MLPで予測する。
  • 高確率のスロット値からKBクエリを形成し、KBの結果をシステムアクションに組み込む。
  • 最初は監督付き学習でスロット予測とアクション選択のクロスエントロピーロスを最小化する(ロスの線形内挿)。
  • REINFORCEでファインチューニングする;探索を促進するためsoftmaxポリシーを使用;タスク成功報酬、失敗時は0、対話を短くするための小さなターン毎ペナルティ。

実験結果

リサーチクエスチョン

  • RQ1エンドツーエンド訓練は、従来のパイプライン型や純粋に監督付きタスク指向対話システムよりも頑健性とタスク成功に改善をもたらすか。
  • RQ2オンライン対話中に、エンドツーエンド最適化はポリシーのみの強化学習を超える利点を提供するか。
  • RQ3提案モデルは、状態追跡、KBインターフェース、エンドツーエンド応答生成の各領域で、レストラン予約や映画予約などのドメイン横断でどのように性能を発揮するか。

主な発見

モデルエリアフード価格ジョイント
RNN [24]92868669
NBT [6]90849472
Our end-to-end model90849272
  • エンドツーエンドRLは、監督付き学習のみと比較してタスクの成功率を向上させ、対話長を短縮する。
  • エンドツーエンド更新を伴うRL訓練は、インタラクティブ学習中のポリシーのみRLより高い性能を示す。
  • エンドツーエンドモデルは、DSTC2でほぼ最先端の信念追跡を達成し、ムービー予約データセットでは強力なスロットおよびジョイントスロット追跡を示す。
  • 人間の評価者は、エンドツーエンドRLモデルを、SLおよびポリシーのみRLのベースラインよりも対話ターンの品質が高いと評価する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。