QUICK REVIEW

[论文解读] Interactive AI with a Theory of Mind

Mustafa Mert Çelikok, Tomi Peltola|arXiv (Cornell University)|Dec 1, 2019

Advanced Bandit Algorithms Research被引用 8

一句话总结

本文通过在多臂赌博机设置中使用嵌套多智能体强化学习建模用户为积极主动、具备规划能力的智能体，提出为交互式AI赋予心智理论（ToM）的计算理论。关键贡献在于一项概念验证用户研究，表明具备主动用户模型（L4）的AI系统显著优于被动模型（L1–L3），通过预判用户意图和反馈策略，实现了更高的任务表现。

ABSTRACT

Understanding each other is the key to success in collaboration. For humans, attributing mental states to others, the theory of mind, provides the crucial advantage. We argue for formulating human--AI interaction as a multi-agent problem, endowing AI with a computational theory of mind to understand and anticipate the user. To differentiate the approach from previous work, we introduce a categorisation of user modelling approaches based on the level of agency learnt in the interaction. We describe our recent work in using nested multi-agent modelling to formulate user models for multi-armed bandit based interactive AI systems, including a proof-of-concept user study.

研究动机与目标

通过将用户识别为具有策略性、具备规划能力的智能体，解决人机交互中被动用户建模的局限性。
提出基于交互过程中用户自主性假设水平的四级用户建模分类体系。
开发并评估一种嵌套多智能体模型，使AI能够在交互式老虎机任务中预判用户行为。
通过实证方法证明，基于心智理论的AI模型相较于传统被动模型，能带来更优的协作结果。

提出的方法

提出四级用户建模分类体系：从固定行为（L1）到具备系统模型的主动规划用户（L4），强调用户自主性复杂度的逐步提升。
采用嵌套多智能体建模方法，将用户表示为能够建模AI老虎机策略的规划者，从而实现前瞻行为。
在部分可观察马尔可夫决策过程（POMDP）框架中应用概率推理与有限理性，以建模相互信念与意图。
利用逆强化学习与概率推理，从交互数据中学习用户偏好与反馈策略。
在一种类似“二十个问题”的游戏中实现交互式AI系统，其中AI选择词语，用户以“是/否”反馈。
通过一项用户研究，在10名参与者和20个目标词语的受控环境中，对比被动与主动用户模型的AI表现。

实验结果

研究问题

RQ1与被动或反应式模型相比，将用户建模为积极主动的规划智能体（L4）在交互任务中如何提升AI表现？
RQ2能够捕捉相互信念与意图的嵌套多智能体模型，在人机交互协作中能在多大程度上提升协作效果？
RQ3AI中的心智理论在现实场景中对用户任务表现与交互效率有何影响？
RQ4AI预判用户反馈策略的能力如何影响多臂老虎机设置中的收敛速度与准确性？

主要发现

在用户研究中，主动用户模型（L4）显著优于被动用户模型（L1–L3），在第12轮问题后表现差异达到统计显著性。
当与建模为积极主动智能体的AI互动时，参与者获得了更高的累积奖励，表明协作效率更高。
主动模型减少了识别目标词语所需的问题数量，证明了交互效率的提升。
研究证实，将用户建模为具有AI内部模型的战略性智能体，可带来可测量的任务表现提升。
结果验证了基于心智理论的用户建模不仅理论合理，且在真实人机交互中具有实际有效性。
研究提供了实证证据，表明AI中的心智理论能同时提升系统表现与用户在交互场景中的体验。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。