Skip to main content
QUICK REVIEW

[論文レビュー] Interactive AI with a Theory of Mind

Mustafa Mert Çelikok, Tomi Peltola|arXiv (Cornell University)|Dec 1, 2019
Advanced Bandit Algorithms Research被引用数 8
ひとこと要約

本稿では、マルチアームド・バンディット設定におけるネストドマルチエージェント強化学習を用いて、ユーザーを能動的で計画的なエージェントとしてモデル化することで、インタラクティブAIに計算的思考理論(ToM)を組み込む手法を提案する。主な貢献は、ユーザーの意図やフィードバック戦略を予測することでタスクパフォーマンスを向上させる能動的ユーザーモデル(L4)を搭載したAIが、受動的モデル(L1–L3)を搭載したAIよりも顕著に優れていることを示す概念実証のユーザースタディの提供である。

ABSTRACT

Understanding each other is the key to success in collaboration. For humans, attributing mental states to others, the theory of mind, provides the crucial advantage. We argue for formulating human--AI interaction as a multi-agent problem, endowing AI with a computational theory of mind to understand and anticipate the user. To differentiate the approach from previous work, we introduce a categorisation of user modelling approaches based on the level of agency learnt in the interaction. We describe our recent work in using nested multi-agent modelling to formulate user models for multi-armed bandit based interactive AI systems, including a proof-of-concept user study.

研究の動機と目的

  • 人AI対話における受動的ユーザーモデリングの限界を克服し、ユーザーを戦略的で計画的なエージェントとして認識すること。
  • 対話中に想定されるユーザーの自律性のレベルに基づいて、四段階のユーザーモデリング分類を提示すること。
  • ネストドマルチエージェントモデルを構築・評価し、AIがインタラクティブバンディットタスクにおけるユーザー行動を予測可能にする仕組みを提供すること。
  • 実証的に、ToMに基づくAIモデルが従来の受動的モデルよりも優れた協働成果をもたらすことを示すこと。

提案手法

  • 固定的(L1)から、システムをモデル化する能力を持つ計画的ユーザー(L4)まで、ユーザーの自律性の複雑さが増す四段階のユーザーモデリング分類を提案。
  • ユーザーをAIのバンディット方策をモデル化する計画者として表現するネストドマルチエージェントモデルを用い、先読み行動を可能にする。
  • 部分的に観測可能なマルコフ決定過程(POMDP)フレームワーク内で確率的推論と限界的合理性を適用し、相互の信念と意図をモデル化する。
  • 逆強化学習と確率的推論を用いて、対話データからユーザーの好みとフィードバック戦略を学習する。
  • AIが単語を選択し、ユーザーが「はい/いいえ」のフィードバックを返す「二十の質問」スタイルのゲームで、インタラクティブAIシステムを実装する。
  • 10名の参加者と20のターゲットワードを用いた制御された環境で、受動的モデルと能動的モデルを搭載したAIの比較を含むユーザースタディにより、モデルを検証する。

実験結果

リサーチクエスチョン

  • RQ1能動的で計画的なエージェント(L4)としてユーザーをモデル化することで、受動的または反応的モデルと比較して、AIのインタラクティブタスクパフォーマンスはどの程度向上するか?
  • RQ2相互の信念と意図を捉えるネストドマルチエージェントモデルは、人AI対話における協働をどの程度向上できるか?
  • RQ3AIにおける思考理論(ToM)は、実世界の設定においてユーザーのタスクパフォーマンスと対話効率にどのような影響を及えるか?
  • RQ4AIがユーザーのフィードバック戦略を予測できる能力が、マルチアームドバンディット設定における収束速度と正確性に与える影響は何か?

主な発見

  • ユーザースタディにおいて、能動的ユーザーモデル(L4)は受動的ユーザー・モデル(L1–L3)を顕著に上回り、12回目の質問以降で統計的有意差が得られた。
  • AIがユーザーを能動的エージェントとしてモデル化した場合、参加者はより高い累積報酬を達成しており、協働の効率性が向上していることが示された。
  • ターゲットワードを特定するのに必要な質問数が、能動的モデルによって減少した。これは、対話の効率性が向上したことを示している。
  • ユーザーを戦略的エージェントとしてモデル化し、AIの内部モデルを持つことで、タスクパフォーマンスに測定可能な向上が得られることを確認した。
  • ToMに基づくユーザーモデリングが、理論的に妥当であるだけでなく、実際の人AI対話においても実効的であることが裏付けられた。
  • 本研究は、ToMを備えたAIが、インタラクティブな設定においてシステムパフォーマンスとユーザー体験の両方を向上させることを実証的根拠で示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。