Skip to main content
QUICK REVIEW

[论文解读] Explicit World Models for Reliable Human-Robot Collaboration

Kenneth Kwok, Basura Fernando|arXiv (Cornell University)|Jan 5, 2026
Social Robot Interaction and HRI被引用 0
一句话总结

本文主张构建并更新明确的世界模型,作为人机之间的共识,以实现可依赖、具备上下文感知的协作,而不是依赖黑箱端对端模型。

ABSTRACT

This paper addresses the topic of robustness under sensing noise, ambiguous instructions, and human-robot interaction. We take a radically different tack to the issue of reliable embodied AI: instead of focusing on formal verification methods aimed at achieving model predictability and robustness, we emphasise the dynamic, ambiguous and subjective nature of human-robot interactions that requires embodied AI systems to perceive, interpret, and respond to human intentions in a manner that is consistent, comprehensible and aligned with human expectations. We argue that when embodied agents operate in human environments that are inherently social, multimodal, and fluid, reliability is contextually determined and only has meaning in relation to the goals and expectations of humans involved in the interaction. This calls for a fundamentally different approach to achieving reliable embodied AI that is centred on building and updating an accessible "explicit world model" representing the common ground between human and AI, that is used to align robot behaviours with human expectations.

研究动机与目标

  • 将从端对端黑箱控制转向基于显式世界模型的可靠协作的转变作为动机。
  • 强调共同理解与多模态对接如何支持可解释性与与人类目标的一致性。
  • 综述感知对接、共同注意力与神经符号架构领域的现有工作,以推动显式世界建模。

提出的方法

  • 讨论符号与神经符号世界模型,作为对环境、状态与行动的显式表征的基础。
  • 解释显式世界模型如何作为共同理解的基础,解决人机协作中的歧义与主观解读。
  • 回顾感知对接、共同注意、多模态线索与可读机器人行为等相关工作,以支持该方法。
  • 提出对显式世界模型进行轻量级、实时更新,以捕捉人机交互中的社会与多模态动态。

实验结果

研究问题

  • RQ1如何构建并维护显式世界模型,使其在HRC中作为共同理解?
  • RQ2多模态线索(凝视、手势、语调)与共同注意在构建可靠的显式世界模型中起到什么作用?
  • RQ3神经符号架构是否能够在显式世界模型内提供可解释、可验证的HRC任务推理?

主要发现

  • 显式世界模型通过将机器人行为锚定在对状态与人类意图的共同解释上,提供可靠性的路径。
  • 显式、可解释的表征在动态的人类环境中比模糊的端到端模型更能解决歧义与主观性。
  • 对符号、神经符号以及多模态对接文献的综合表明,建立可沟通的共识对HRC有益。
  • 需要实时、轻量级的世界模型来捕捉社会与多模态动态,同时不损害响应性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。