QUICK REVIEW

[論文レビュー] Learning from Real Users: Rating Dialogue Success with Neural Networks for Reinforcement Learning in Spoken Dialogue Systems

Pei-Hao Su, David Vandyke|arXiv (Cornell University)|Aug 13, 2015

Speech and dialogue systems参考文献 21被引用数 52

ひとこと要約

本稿では、ユーザーの目的に関する事前知識なしに、実際のユーザー対話からのターン単位の特徴を学習することで、会話システムの会話成功を自動的に予測するための再帰的ニューラルネットワーク（RNN）の使用を提案する。RNNモデルは、真値のタスク成功を用いた教師ありベースラインと同等の性能を達成しており、タスクの目的が不明な状況でも、実際のユーザーとの対話で効果的なオンライン政策学習を可能にするとともに、ノイズの多いユーザーフィードバックに依存する手法を上回る。

ABSTRACT

To train a statistical spoken dialogue system (SDS) it is essential that an accurate method for measuring task success is available. To date training has relied on presenting a task to either simulated or paid users and inferring the dialogue's success by observing whether this presented task was achieved or not. Our aim however is to be able to learn from real users acting under their own volition, in which case it is non-trivial to rate the success as any prior knowledge of the task is simply unavailable. User feedback may be utilised but has been found to be inconsistent. Hence, here we present two neural network models that evaluate a sequence of turn-level features to rate the success of a dialogue. Importantly these models make no use of any prior knowledge of the user's task. The models are trained on dialogues generated by a simulated user and the best model is then used to train a policy on-line which is shown to perform at least as well as a baseline system using prior knowledge of the user's task. We note that the models should also be of interest for evaluating SDS and for monitoring a dialogue in rule-based SDS.

研究の動機と目的

ユーザーが自発的に行動する実際のユーザーを用いて、会話システム（SDS）の訓練を可能にすること。
ユーザーの目的が不明でフィードバックが一貫しない現実世界の状況において、明確なタスク成功の定義が困難であるという課題に対処すること。
真値のタスク完了に依存せずに、ターン単位の特徴のみを用いて会話成功を評価するニューラルネットワークベースの報酬予測モデルを開発すること。
このようなモデルが、タスクの目的が既知のベースラインを上回るか同等の性能を示す実際のユーザーとのオンライン政策学習を有効に可能にできることを実証すること。
統計的およびルールベースの会話システムにおけるリアルタイム監視および政策学習に適した、スケーラブルで自動化された報酬推定手法を提供すること。

提案手法

2つのニューラルネットワークアーキテクチャ—再帰的ニューラルネットワーク（RNN）と畳み込みニューラルネットワーク（CNN）—を、会話から抽出したターン単位の特徴の系列に基づいて会話成功を分類するように訓練する。
タスク成功が既知のシミュレーテッドユーザー対話データを用いて訓練を行い、スロット入力の正確さ、会話の長さ、システム応答の質といった特徴を活用する。
RNNモデルは会話履歴を逐次処理し、ターンごとの相互作用における時間的依存性を捉えるのに対し、CNNモデルは固定長の会話表現にフィルタを適用する。
最も優れた性能を示したモデル（バイナリRNN分類）を、アマゾン・メカニカル・トゥーカーを通じて実際のユーザーとのオンライン政策学習で報酬信号を生成するためにデプロイする。
強化学習を用いて政策学習を実施し、真値のタスク成功の代わりにRNNモデルが報酬信号を提供する。
自動化された指標（正解率、RMSE）と、会話品質の6段階リッカート尺度および二値の成功評価による人間評価を用いて性能を評価する。

実験結果

リサーチクエスチョン

RQ1ユーザーのタスクに関する事前知識がない状況でも、ニューラルネットワークが実際のユーザー対話における会話成功を正確に予測できるか？
RQ2タスク固有のラベルなしに、ターン単位の特徴のみを用いた場合、RNNとCNNの会話成功分類性能はどのように比較されるか？
RQ3ニューラルネットワークベースの報酬予測器は、真値のタスク成功を用いたベースラインと同等またはそれを上回る性能を示す実際のユーザーとのオンライン政策学習を有効に可能にするか？
RQ4ノイズの多い実世界の対話データにおける限られた訓練データや変動する誤差率に対して、ニューラルネットワークモデルはどれほど頑健か？
RQ5RNNベースの報酬予測器は、ノイズの多いユーザーフィードバックや主観的評価に依存する手法よりも、効果的な会話政策の学習を可能にするか？

主な発見

バイナリRNNモデルは、CNNを上回り、たとえ1,000件の訓練対話しか利用できない状況でも、堅牢な性能を示した。
RNNモデルは、保留されたテストセットにおいて89.5％の正解率を達成し、報酬推定における平均二乗誤差（RMSE）は0.42であった。これは、強い回帰性能を示している。
RNN報酬予測器を用いたオンライン政策学習は、真値のタスク成功を活用するベースラインよりもわずかに優れた会話品質評価（5.0満点中3.94）を達成した。
RNNベースのシステムはすべての対話を訓練に使用したが、ベースラインは客観的と主観的な成功評価の不一致のため約15％の対話を破棄していた。これにより、RNNアプローチはデータ効率的かつコスト効率的であることが示された。
誤差率が異なるテストセットに対しても、モデルは良好に一般化しており、ノイズが多いか品質が変動する入力を持つシステムへの実世界での導入に適していることが示された。
本研究では、ニューラルネットワークが強化学習の訓練において真値のタスク成功を効果的に代替できることを実証した。これにより、ユーザーの目的を事前に把握しない状況でも、SDSの実世界への展開が可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。