Skip to main content
QUICK REVIEW

[論文レビュー] Way Off-Policy Batch Deep Reinforcement Learning of Implicit Human Preferences in Dialog

Natasha Jaques, Asma Ghandeharioun|arXiv (Cornell University)|Jun 30, 2019
Reinforcement Learning in Robotics参考文献 64被引用数 131
ひとこと要約

本論文は、オンライン探索なしで固定の人間対話データから対話方針を学ぶために、KL制御とドロップアウトに基づく不確実性を用いたオフポリシー・バッチ深部強化学習法を開発し、オープンドメイン対話においてベースラインを上回る改良を達成する。

ABSTRACT

Most deep reinforcement learning (RL) systems are not able to learn effectively from off-policy data, especially if they cannot explore online in the environment. These are critical shortcomings for applying RL to real-world problems where collecting data is expensive, and models must be tested offline before being deployed to interact with the environment -- e.g. systems that learn from human interaction. Thus, we develop a novel class of off-policy batch RL algorithms, which are able to effectively learn offline, without exploring, from a fixed batch of human interaction data. We leverage models pre-trained on data as a strong prior, and use KL-control to penalize divergence from this prior during RL training. We also use dropout-based uncertainty estimates to lower bound the target Q-values as a more efficient alternative to Double Q-Learning. The algorithms are tested on the problem of open-domain dialog generation -- a challenging reinforcement learning problem with a 20,000-dimensional action space. Using our Way Off-Policy algorithm, we can extract multiple different reward functions post-hoc from collected human interaction data, and learn effectively from all of these. We test the real-world generalization of these systems by deploying them live to converse with humans in an open-domain setting, and demonstrate that our algorithm achieves significant improvements over prior methods in off-policy batch RL.

研究の動機と目的

  • オープンドメイン対話ベースのRLにおいて、オンライン探索を行わず固定バッチの人間対話データから学習を可能にする。
  • 分布の発散を抑制するために、強力な事前学習済みプリオリをKL制御を介して方策更新の正則化に活用する。
  • ドロップアウトベースの不確実性を用いてターゲットQ値の下限を得る(Double Q-Learningの代替として)。
  • 事後報酬関数を通じて、感情・関与などの暗黙的な人間の好みからの学習を実証する。
  • 人間ユーザーとリアルタイムで対話させることで頑健性と一般化を評価する。

提案手法

  • 既知の軌跡から状態-行動空間の生成モデルを事前として学習させる。
  • 固定バッチを用いてバッチデータからベルマン様のターゲットを最小化するQネットワークを訓練する(Batch Q)。
  • ターゲットQ値の悲観的な下限を得るためにドロップアウトベースの不確実性推定を導入する(Batch Q MC)。
  • 事前学習済みプリオリを用いて離散アクション空間にBatch Constrained Q-learningを適応させる(Discrete Batch Constrained Q - DBCQ)。
  • KL制御を組み込み、事前分布からの発散をペナルティし、事前尤度とエントロピー項を含むKL正則化Q関数(Psi関数形式)を導出する。
  • 複数のプリオリに対してモデル平均を適用して、より堅牢な学習のためのモデル平均プリオリを形成する。)

実験結果

リサーチクエスチョン

  • RQ1強力な事前学習済みプリオリを活用することで、環境探索なしにオフポリシー・バッチRLは効果的な対話方針を学習できるか?
  • RQ2事前学習済みプリオリからのKL制御は、オープンドメイン対話のような高次元アクション空間に対するBRLにおいて学習を安定化し、Q値の過大評価を低減するか?
  • RQ3言語生成のオフラインBRLにおいて、ドロップアウトベースの不確実性推定はDouble Q-learningと比べて過大評価の抑制にどのように寄与するか?
  • RQ4対話データから事後に回収できる感情・関与などの暗黙的な人間報酬指標は何か?
  • RQ5KL制御、Psi学習、モデル平均プリオリが実世界の展開とユーザーが感じる品質のOpen-Domain対話エージェントにどのように影響するか?

主な発見

  • KL-controlモデルは人間評価指標と暗黙的報酬でベースラインを大幅に上回る。
  • ドロップアウトベースの不確実性推定はQ値の下限推定を提供し、複数のターゲットネットワークを必要とせず過大評価を抑制する。
  • モデル平均プリオリ(MA)は多様なデータソースとアーキテクチャ全体で堅牢性を向上させる。
  • 事前学習済みプリオリに近い方策は、報酬を最大化して報酬を利用するベースラインよりも、もっと妥当で礼儀正しく、関与度の高い対話を生成する。
  • 感情、関与(語数)、笑い、意味的類似性、問いかけ行動などに基づく暗黙の報酬は、より高品質な会話へ学習を導く可能性がある。
  • 強力なプリオリを持つKL制御は、オープンドメイン対話のBRLにおいて安定した学習と性能向上に不可欠である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。