QUICK REVIEW

[論文レビュー] Dialogue Learning with Human Teaching and Feedback in End-to-End Trainable Task-Oriented Dialogue Systems

Bing Liu, Gökhan Tür|arXiv (Cornell University)|Apr 18, 2018

Speech and dialogue systems参考文献 27被引用数 20

ひとこと要約

本論文では、エンド・ツー・エンドで学習可能なタスク指向対話システムのためのハイブリッド模倣学習および強化学習フレームワークを提案する。この手法により、インタラクティブな失敗時に人間の指導を学び、後続段階でユーザーのフィードバックを受けることで、エージェントが学習可能となる。本手法は、オフライン事前学習とオンライン相互作用の間の分布シフトを解消することで、タスク成功確率と対話状態追跡精度を向上させ、エンド・ツー・エンドのファインチューニングにより、教師あり学習やポリシー専用強化学習の手法を上回る性能を達成する。

ABSTRACT

In this work, we present a hybrid learning method for training task-oriented dialogue systems through online user interactions. Popular methods for learning task-oriented dialogues include applying reinforcement learning with user feedback on supervised pre-training models. Efficiency of such learning method may suffer from the mismatch of dialogue state distribution between offline training and online interactive learning stages. To address this challenge, we propose a hybrid imitation and reinforcement learning method, with which a dialogue agent can effectively learn from its interaction with users by learning from human teaching and feedback. We design a neural network based task-oriented dialogue agent that can be optimized end-to-end with the proposed learning method. Experimental results show that our end-to-end dialogue agent can learn effectively from the mistake it makes via imitation learning from user teaching. Applying reinforcement learning with user feedback after the imitation learning stage further improves the agent's capability in successfully completing a task.

研究の動機と目的

タスク指向対話システムにおけるオフライン教師あり事前学習とオンライン相互作用型強化学習の間の分布シフトを解消すること。
人間の指導に依存するコストを減らすために、二値フィードバックを用いた効率的な強化学習と組み合わせること。
対話ポリシー、状態追跡、自然言語理解のエンド・ツー・エンド最適化を、共同学習により可能にすること。
人間を含むフィードバックとインタラクティブな学習を通じて、タスク成功確率と対話状態追跡精度を向上させること。
人間の評価者を用いた実際のユーザー相互作用シナリオにおいて、ハイブリッド学習の有効性を評価すること。

提案手法

対話エージェントは、自然言語理解、対話状態追跡、ポリシー学習を共同で最適化するニューラルネットワークアーキテクチャを用いてエンド・ツー・エンドで訓練される。
本手法はまず、対話コーパスを用いて教師あり学習を適用し、エージェントを事前学習する。
エージェントが相互作用中に誤りを犯した場合、ユーザーが是正のデモンストレーション（指導）を提供し、模倣学習のための訓練データに追加される。
模倣学習の後、エージェントは対話終了時の二値フィードバック（成功／失敗）のみを用いて強化学習を継続する。
モデルはエンド・ツー・エンドの誤差逆伝播を用いて、入力埋め込み層を含むすべてのコンponentsを更新し、パイプライン全体での共同最適化を保証する。
本手法は、人間のデモンストレーションによる誤り回復に焦点を当てることで、ユーザー指導のサイクル数を削減し、最小限のフィードバックでスケーラブルな強化学習を実現する。

実験結果

リサーチクエスチョン

RQ1対話エージェントは、事前学習でカバーされていない誤りをオンライン相互作用中に人間の指導を受けて効果的に学習できるか？
RQ2模倣学習と人間の指導、その後の強化学習を組み合わせることで、教師あり学習や強化学習専用のファインチューニングと比較して、タスク成功確率が向上するか？
RQ3ユーザー入力の変動によって引き起こされる分布シフト下で、エンド・ツー・エンドのファインチューニングが、対話状態追跡精度をどの程度向上させるか？
RQ4ポリシー専用強化学習のファインチューニングと比較して、ハイブリッド学習手法は学習効率と最終的性能においてどのように差をつけるか？
RQ5人間の評価者が、指導とフィードバックの両方を受けることで、対話品質に顕著な向上を実感できるか？

主な発見

SL + IL + RL モデルは、人間評価で4.603（スケール1〜5）のタスク成功確率を達成し、SLオンリーモデル（3.987）およびSL + IL モデル（4.378）を顕著に上回った。
500回の模倣学習セッション後、対話状態追跡精度は分布シフト下で50.51％から67.47％に向上し、新しいユーザー入力分布への適応が有効であることが示された。
エンド・ツー・エンドの強化学習ファインチューニングは、ポリシー専用トレーニングよりも高いタスク成功確率を達成しており、すべてのモデルコンponentsの共同最適化の利点が裏付けられた。
SL + IL + RL モデルは、長めの対話が伴う困難なタスクで高い成功確率を示し、SL + RL 唯一の手法と比較して、より優れた戦略学習が可能であることが示された。
人間の評価者は、SL + IL + RL モデルを最も役立つ・自然な対話と評価し、平均スコア4.603を記録した。これは、ユーザー体験の向上を示している。
本手法は、重要な誤り回復に焦点を当てることで、頻繁なユーザー指導の必要性を削減しながらも、最小限のフィードバックで効率的な強化学習を可能にした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。