QUICK REVIEW

[논문 리뷰] Explicit World Models for Reliable Human-Robot Collaboration

Kenneth Kwok, Basura Fernando|arXiv (Cornell University)|2026. 01. 05.

Social Robot Interaction and HRI인용 수 0

한 줄 요약

논문은 투명하지 않은 엔드-투-엔드 모델에 의존하기보다는 인간과 로봇 간의 신뢰할 수 있고 맥락 인지된 협업을 가능하게 하기 위해 명시적 세계 모델을 구축하고 갱신하는 것을 공통 기반으로 삼는 것을 주장한다.

ABSTRACT

This paper addresses the topic of robustness under sensing noise, ambiguous instructions, and human-robot interaction. We take a radically different tack to the issue of reliable embodied AI: instead of focusing on formal verification methods aimed at achieving model predictability and robustness, we emphasise the dynamic, ambiguous and subjective nature of human-robot interactions that requires embodied AI systems to perceive, interpret, and respond to human intentions in a manner that is consistent, comprehensible and aligned with human expectations. We argue that when embodied agents operate in human environments that are inherently social, multimodal, and fluid, reliability is contextually determined and only has meaning in relation to the goals and expectations of humans involved in the interaction. This calls for a fundamentally different approach to achieving reliable embodied AI that is centred on building and updating an accessible "explicit world model" representing the common ground between human and AI, that is used to align robot behaviours with human expectations.

연구 동기 및 목표

엔드-투-엔드 블랙박스 제어에서 명시적 세계 모델에 기반한 신뢰할 수 있는 협업으로의 전환을 촉진한다.
공통 기반과 다중모달 접지가 해석 가능성과 인간 목표에 대한 정합성을 어떻게 지원하는지 강조한다.
지각적 접지, 공동 주의 및 신경-상징적 구조에 관한 기존 연구를 조사해 명시적 세계 모델링의 필요성을 제시한다.

제안 방법

환경, 상태, 행동의 명시적 표현의 기초로서 기호적 및 신경-상징적 세계 모델을 논의한다.
명시적 세계 모델이 HRC의 모호성 및 주관적 해석을 해소하는 공통 기반으로 작용하는 방식을 설명한다.
지각적 접지, 공동 주의, 다중모달 단서 및 읽기 쉬운 로봇 행동에 관한 이전 연구를 검토해 이 접근을 뒷받침한다.
사회적이고 다중모달 동역학을 포착하기 위한 명시적 세계 모델의 경량화된 실시간 업데이트를 제안한다.

실험 결과

연구 질문

RQ1명시적 세계 모델을 어떻게 구성하고 유지하여 인간-로봇 협업의 공통 기반으로 삼을 수 있는가?
RQ2다중모달 신호(시선, 제스처, 운율/말투)와 공동 주의가 신뢰할 수 있는 명시적 세계 모델 구축에 어떤 역할을 하는가?
RQ3신경-상징적 구성이 명시적 세계 모델 내에서 HRC 작업에 대해 해석 가능하고 검증 가능한 추론을 제공할 수 있는가?

주요 결과

명시적 세계 모델은 상태와 인간 의도의 공유된 해석에 로봇 행동을 고정시켜 신뢰성으로 가는 길을 제공한다.
명시적이고 해석 가능한 표현은 동적 인간 환경에서 불투명한 엔드-투-엔드 모델보다 모호성과 주관성을 더 잘 해소할 수 있다.
상징적, 신경-상징적 및 다중모달 접지 연구의 종합은 HRC를 위한 의사소통 가능한 공통 기반 구축을 지지한다.
실시간이고 경량의 세계 모델이 사회적 및 다중모달 동역학을 포착하는데 필요하며 반응성을 희생하지 않아야 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.