Skip to main content
QUICK REVIEW

[論文レビュー] Robot Planning with Mathematical Models of Human State and Action

Anca D. Dragan|arXiv (Cornell University)|May 11, 2017
AI-based Problem Solving and Planning参考文献 20被引用数 30
ひとこと要約

本稿では、ロボットが人間の認知の数学的モデル——具体的には人間の信念、目的、報酬関数——を用いて計画すべきであると提唱する。これは、人間を受動的な障害物とみなすのではなく、能動的かつ自然に協調するためのものである。人間の行動を合理的な推論としてモデル化し、ゲーム理論的計画を用いることで、ロボットはより自然に協調し、人間の行動に適応でき、さらには行動を通じて内部状態(例:ドライブスタイルや自信)を伝えることができる。その結果、より安全で直感的な人間-ロボットインタラクションが実現する。

ABSTRACT

Robots interacting with the physical world plan with models of physics. We advocate that robots interacting with people need to plan with models of cognition. This writeup summarizes the insights we have gained in integrating computational cognitive models of people into robotics planning and control. It starts from a general game-theoretic formulation of interaction, and analyzes how different approximations result in different useful coordination behaviors for the robot during its interaction with people.

研究の動機と目的

  • 動的で共有される環境においてロボットと人間が効果的に相互作用する課題に、人間を静的障害物として扱うのではなく、人間の心理状態をモデル化することで対処すること。
  • 人間がロボットの意図や内部状態をどのように推論するかをモデル化することで、ロボットが人間の行動を予測し、それに適応できるようにすること。
  • 実時間で動作するオンラインのアクティブインファレンス機構を構築し、模倣、是正、言語命令などの多様な行動信号から人間の報酬関数や内部状態を推定できるようにすること。
  • ロボットの行動が効率的であるだけでなく、自身の内部パrameter(例:報酬関数、自信)に関する情報を伝えるように設計することで、透明性と信頼性を向上させること。
  • 人間の行動を受動的に観察するのではなく、ロボットの行動自体が人間の推論に信号として機能する、能動的かつ相互作用的な学習へと進むこと。

提案手法

  • 人間とロボットの相互作用を、部分的に観測可能で非対称な情報を持つ二者ゲームとして形式化し、両者とも自身の効用関数を最適化するようにする。
  • ネストドインファレンスを用いたゲーム理論的計画:ロボットは人間を、自身の目的や報酬パrameterについてベイズ推論を行うとモデル化し、そのモデルのもとで最適な行動を計画する。
  • 階層的計画を実装し、まず人間の行動(例:最適反応や合理的推論として)をモデル化し、その後で人間と協調するか誘導する行動を選択する。
  • 逆強化学習と逆計画法を統合し、模倣以外の信号(物理的是正、明示的な命令など)から人間の報酬関数を推定する。
  • 人間の信念更新における情報量の増加を最大化するように行動を選択することで、ロボット自身の内部状態(例:ドライブスタイル、自信)に関する情報を効果的に伝えるロボット行動を設計する。
  • リアルタイムでのオンライン推論を活用し、隠れた人間の状態(例:好み、意図)を推定し、相互作用中にロボット行動を動的に調整する。

実験結果

リサーチクエスチョン

  • RQ1人間の反応を考慮した行動計画は、人間の行動が静的または予測可能であると仮定するのではなく、どのように実現できるか?
  • RQ2人間を意図や目的を推論する合理的なエージェントとしてモデル化することで得られる協調的利点は何か?
  • RQ3模倣以外の行動信号(例:是正、命令、設計された報酬関数)から、ロボットが人間の報酬関数や内部状態を能動的に推定する方法は何か?
  • RQ4ロボットの行動を、自身の内部パrameter(例:報酬関数、自信)に関する情報を伝えるように設計する方法は何か?
  • RQ5ロボットと人間の両方が互いの内部状態を推論する相互信念形成をモデル化することで、安全かつ透明な人間-ロボットインタラクションにどのような影響が生じるか?

主な発見

  • 人間を目的と報酬関数についてベイズ推論を行う合理的なエージェントとしてモデル化したロボットは、人間の好みに合わせてオブジェクトの渡し方を調整するなど、より適応的で協調的な行動を示せる。
  • 人間をロボットの行動に最適反応を示すエージェントとしてモデル化することで、ロボットは人間の反応を予測し、運転や共同アセンブリなどの共有環境でのタスクパフォーマンスを向上させられる。
  • 物理的行動(例:誇張された動きやタイミング)を信号として用いることで、ロボットの意図や目的を効果的に伝えられ、自然な人間のコミュニケーション戦略を模倣できる。
  • 多様な信号(是正、命令、設計された報酬関数など)から人間の報酬関数を能動的に推定するロボットは、報酬関数の誤設定に対してより頑健になり、人間の監視を回避するリスクも低減される。
  • 人間がロボットの内部状態をどのように推論するかをモデル化することで、ロボットは効率性を一時的に犠牲にしてでも、明確さを高める行動を意図的に行えるようになる。例えば、効率的なドライブスタイルを示すために急激に合流するなど、透明性と協調性が向上する。
  • 認知モデルをロボット計画に統合することで、手のひらを返すような交差点での停止、空間の探査行動といった、人間のように自然に現れる協調行動(例:インチ・アラウンド)が出現する。このような行動は、手作業でコーディングするのは困難だが、合理的な推論から自然に生じる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。