QUICK REVIEW

[論文レビュー] Where Do You Think You're Going?: Inferring Beliefs about Dynamics from Behavior

Siddharth Reddy, Anca D. Dragan|arXiv (Cornell University)|May 21, 2018

Reinforcement Learning in Robotics参考文献 47被引用数 26

ひとこと要約

本論文は、人間の最適行動やノイズを仮定するのではなく、部分最適な行動から、彼らが環境のダイナミクスについて持つ内部的信念を学習することで、人間の意図を推定する新規な手法を提案する。ユーザーを自身のダイナミクスモデル内で最適に行動するとみなすことで、従来の手法に比べて連続的かつ非線形なMDPにおいてより優れた意図推定を達成する。

ABSTRACT

Inferring intent from observed behavior has been studied extensively within the frameworks of Bayesian inverse planning and inverse reinforcement learning. These methods infer a goal or reward function that best explains the actions of the observed agent, typically a human demonstrator. Another agent can use this inferred intent to predict, imitate, or assist the human user. However, a central assumption in inverse reinforcement learning is that the demonstrator is close to optimal. While models of suboptimal behavior exist, they typically assume that suboptimal actions are the result of some type of random noise or a known cognitive bias, like temporal inconsistency. In this paper, we take an alternative approach, and model suboptimal behavior as the result of internal model misspecification: the reason that user actions might deviate from near-optimal actions is that the user has an incorrect set of beliefs about the rules -- the dynamics -- governing how actions affect the environment. Our insight is that while demonstrated actions may be suboptimal in the real world, they may actually be near-optimal with respect to the user's internal model of the dynamics. By estimating these internal beliefs from observed behavior, we arrive at a new method for inferring intent. We demonstrate in simulation and in a user study with 12 participants that this approach enables us to more accurately model human intent, and can be used in a variety of applications, including offering assistance in a shared autonomy framework and inferring human preferences.

研究の動機と目的

人間の最適性を仮定する逆強化学習（IRL）の限界に対処する。これは、ユーザーが誤った内部的ダイナミクスモデルを持つために部分最適に行動する場合に失敗する。
部分最適な人間の行動をノイズやバイアスとして扱うのでなく、環境のダイナミクスに対する誤った内部モデル下での最適行動としてモデル化する。
高次元で連続的な状態空間における行動デモから、内部ダイナミクスモデルをスケーラブルに推定する手法を開発する。
推定された内部ダイナミクスモデルを用いて、行動予測や支援を可能にすることで、意図推定、共有自律性、好み学習を向上させる。

提案手法

行動の確率的選択（指数化されたQ値に基づく）を仮定したソフトQ値ポリシーの下で、観測された行動の尤度を最大化することで、ユーザーの内部ダイナミクスモデルを推定する。
ソフトベルマン方程式を用いて内部ダイナミクスモデルとソフトQ関数を結びつけ、デモからダイナミクスパラメータをエンドツーエンド微分可能に学習可能にする。
内部ダイナミクスモデルを少数の学習可能なパラメータ（最大7つ）でパラメータライズすることで、連続状態空間でも効率的な最適化を可能にする。
内部ダイナミクスモデルを、報酬関数が既知のタスクにおけるデモから学習し、その後その内部モデルから得たポリシーを実際のダイナミクスに転送して支援を行う。
シミュレーテッドMDPと、Lunar Landerゲームを用いた実際のユーザー研究を用いて、内部ダイナミクスの回復と支援性能を検証する。
学習された内部ダイナミクスを用いて、望ましい次状態を予測し、内部ダイナミクスから実際のダイナミクスへのポリシー転送を可能にすることで、共有自律性を実現する。

実験結果

リサーチクエスチョン

RQ1連続的かつ非線形なMDPにおいて、部分最適な行動から人間ユーザーの環境ダイナミクスの内部モデルを正確に推定できるか？
RQ2部分最適行動を誤った内部ダイナミクスモデル下での最適行動としてモデル化することで、ノイズや認知バイアスを仮定するのと比較して、より優れた意図推定が達成できるか？
RQ3推定された内部ダイナミクスモデルを、内部ダイナミクスから実際のダイナミクスへのポリシー転送を含む共有自律システムにおける支援向上に活用できるか？
RQ4本手法は、Lunar Landerのような複雑で高次元の制御タスクにおいて、実際の人間ユーザーに対しても一般化できるか？

主な発見

連続的状態空間を持つシミュレーテッドMDPにおいて、本手法は人間の行動を説明するのに真の現実世界のダイナミクスよりも優れた内部ダイナミクスモデルを回復できた。
Lunar Landerをプレイした12名の参加者を対象としたユーザー研究において、推定された内部ダイナミクスモデルは、真のダイナミクスよりも観測された人間の行動をよりよく説明できた。
回復された内部ダイナミクスモデルにより、内部ダイナミクスから実際のダイナミクスへのポリシー転送が有効に行われ、システムがユーザーがゲームをより信頼性高く完了できるように支援できた。
本手法は線形または離散モデルに限定されず、従来の手法が非効率的・非現実的となる非線形的かつ高次元の連続的状態空間へもスケーラブルに拡張可能である。
人間の行動を最適性からの逸脱ではなく、信念システム下での最適行動としてモデル化することで、意図推定と好み学習が向上した。
結果として、内部ダイナミクスモデル推定が、適応的支援、パーソナライズドフィードバック、意図に配慮したAIシステムの基盤として機能できることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。