Skip to main content
QUICK REVIEW

[論文レビュー] On-line Active Reward Learning for Policy Optimisation in Spoken Dialogue Systems

Pei-Hao Su, Milica Gašić|arXiv (Cornell University)|May 24, 2016
Speech and dialogue systems参考文献 35被引用数 81
ひとこと要約

本論文は、RNNが生成する会話埋め込みに基づくガウス過程分類を用いて、会話方針と報酬モデルを共同で学習するオンラインアクティブ報酬学習フレームワークを提案する。情報性の高いユーザーフィードバックを能動的に選択し、不確実性をモデル化することで、アノテーションコストを低減し、ノイズの多いフィードバックに対しても頑健性を向上させ、事前学習済みシミュレータや大規模なアノテート済みデータセットがなくても、実世界の導入環境で優れた方針最適化を達成する。

ABSTRACT

The ability to compute an accurate reward function is essential for optimising a dialogue policy via reinforcement learning. In real-world applications, using explicit user feedback as the reward signal is often unreliable and costly to collect. This problem can be mitigated if the user's intent is known in advance or data is available to pre-train a task success predictor off-line. In practice neither of these apply for most real world applications. Here we propose an on-line learning framework whereby the dialogue policy is jointly trained alongside the reward model via active learning with a Gaussian process model. This Gaussian process operates on a continuous space dialogue representation generated in an unsupervised fashion using a recurrent neural network encoder-decoder. The experimental results demonstrate that the proposed framework is able to significantly reduce data annotation costs and mitigate noisy user feedback in dialogue policy learning.

研究の動機と目的

  • 強化学習を用いた会話方針学習における信頼性が低く、高コストなユーザーフィードバックの課題に対処すること。
  • 実世界のスプokenダイアログシステムにおいて、事前学習済みユーザーシミュレータや大規模なアノテート済みデータセットに依存しないこと。
  • アクティブラーニングを用いて、最も情報価値の高いフィードバック要求のみを選択することで、人的アノテーションの負荷を最小限に抑えること。
  • ベイジアンガウス過程分類を用いて、ユーザーフィードバックの不確実性とノイズをモデル化することで、方針学習の安定性を向上させること。
  • 事前学習やユーザーシミュレータを必要とせず、実際のユーザーアクティビティからのみ、エンドツーエンドのオンライン方針最適化を可能にすること。

提案手法

  • 可変長の会話履歴から固定長の非教師付き会話埋め込みを生成するために、再帰的ニューラルネットワーク(RNN)オートエンコーダーが使用される。
  • これらの埋め込み上でガウス過程分類(GPC)モデルを学習し、会話の成功を予測する。不確実性推定値を用いてアクティブラーニングを誘導する。
  • アクティブラーニングにより、最も不確実性が高く情報価値の高い会話を選択し、必要なアノテーション数を最小限に抑える。
  • 報酬モデルは、ライブユーザーからのフィードバックをリアルタイムで更新することで、会話方針と報酬関数の共同最適化を可能にする。
  • ユーザーフィードバックの不正確さに対処するため、ノイズモデルをGPCフレームワークに組み込み、耐障害性を向上させる。
  • システム全体は、事前に定義されたタスク成功信号やユーザーシミュレータを必要とせず、実際のユーザーアクティビティからのみエンドツーエンドで訓練される。

実験結果

リサーチクエスチョン

  • RQ1不確実性を考慮したモデル化を伴うオンラインアクティブ報酬学習は、会話方針学習におけるユーザーフィードバックのアノテーション数を削減できるか?
  • RQ2シミュレートされたフィードバックや完全なアノテーションに依存する手法と比較して、オンラインアクティブ報酬学習で学習された会話方針の性能はどの程度か?
  • RQ3教師なしRNNベースの会話埋め込みは、報酬モデリングにおいて、手作業で設計された特徴量やシミュレータベースの表現をどの程度代替できるか?
  • RQ4実世界の展開において、ノイズや一貫性のないユーザーフィードバックに対して、本手法はどの程度頑健か?
  • RQ5オンライン学習による方針と報酬モデルの共同最適化は、事前学習やユーザーシミュレータを必要とせず、安定的かつ効果的な方針収束を達成できるか?

主な発見

  • アクティブラーニングを用いて、情報価値が最も高い際のみフィードバックを要請することで、データアノテーションコストを顕著に削減した。
  • Cambridgeのレストランドメインにおいて、ノイズの多いユーザーフィードバックが存在する中でも、最先端の手法と比較して優れた方針最適化性能を達成した。
  • ガウス過程報酬モデルは、不確実性を効果的にモデル化し、ノイズをフィルタリングすることで、一貫性のないユーザーレーティングに対しても頑健性を示した。
  • 教師なしRNNベースの会話埋め込みは、ラベルなしデータのみで高品質な報酬予測を可能にする、コンパクトで効果的な表現を提供した。
  • 方針と報酬モデルのオンライン共同訓練により、主観的なユーザーフィードバックに依存する手法で見られるような不安定な学習ダイナミクスを回避した。
  • 本フレームワークは、ユーザーシミュレータや大規模なアノテート済みデータセットを必要とせず、実世界環境でエンドツーエンドのオンライン方針学習を可能にした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。