QUICK REVIEW

[논문 리뷰] A Multimodal Framework for Human-Multi-Agent Interaction

Shaid Hasan, Breenice Lee|arXiv (Cornell University)|2026. 03. 24.

Social Robot Interaction and HRI인용 수 0

한 줄 요약

이 논문은 각 휴머노이드 로봇이 지각, 계획, 행동 모듈을 가진 자율적 인지 에이전트로서, 중앙 메커니즘에 의해 조정되어 공유 공간에서 자연스러운 인간-다중 에이전트 상호작용을 가능하게 하는 다중모달 LLM 주도 프레임워크를 제시한다.

ABSTRACT

Human-robot interaction is increasingly moving toward multi-robot, socially grounded environments. Existing systems struggle to integrate multimodal perception, embodied expression, and coordinated decision-making in a unified framework. This limits natural and scalable interaction in shared physical spaces. We address this gap by introducing a multimodal framework for human-multi-agent interaction in which each robot operates as an autonomous cognitive agent with integrated multimodal perception and Large Language Model (LLM)-driven planning grounded in embodiment. At the team level, a centralized coordination mechanism regulates turn-taking and agent participation to prevent overlapping speech and conflicting actions. Implemented on two humanoid robots, our framework enables coherent multi-agent interaction through interaction policies that combine speech, gesture, gaze, and locomotion. Representative interaction runs demonstrate coordinated multimodal reasoning across agents and grounded embodied responses. Future work will focus on larger-scale user studies and deeper exploration of socially grounded multi-agent interaction dynamics.

연구 동기 및 목표

공유 환경에서 사회적으로 근거 있는 다중 로봇 HRI의 필요성을 제시한다.
각 로봇이 다중모달 인지 및 구현된 행동을 갖춘 자율적 인지 에이전트인 프레임워크를 제안한다.
다중 에이전트 간의 차례 지정 및 참여를 관리하기 위한 중앙 집중형 조정을 시연한다.
비전–언어 인지, LLM 주도 계획, 구현된 행동을 포함하는 모듈식 루프 내에서의 인지 통합을 시연한다.

제안 방법

각 로봇은 지각, 계획 및 실행으로 구성된 모듈식 폐쇄 루프 에이전트이다.
지각은 다중모달 입력(음성 및 시각)을 비전–언어 모델을 통해 처리하여 구조화된 관찰을 생성한다.
계획은 구조화된 입력에 조건화된 LLM을 사용하여 로봇의 구현 능력으로 제약된 순서적, 매개변수화된 행동 정책을 생성한다.
행동은 매개변수화된 프리미티브의 시퀀스(음성, 제스처, 시선, 이동 등)를 실행하고 상태 피드백을 반환한다.
중앙 집중형 코디네이터가 모든 에이전트의 응답 가능도를 평가하여 차례를 조정하고 참여를 관리하며, 겹치는 발화 없이 조정된 행동을 보장한다.
두 휴머노이드 로봇에 대한 시연은 다중모달 기반화 및 상호작용 시나리오에서의 조정된 구현을 보여준다.

실험 결과

연구 질문

RQ1다중 에이전트 HRI를 위한 일관된 상호작용 맥락을 생성하기 위해 다중모달 인식을 어떻게 융합할 수 있는가?
RQ2LLM 주도 계획이 각 에이전트의 능력을 존중하는 실행 가능한 구현된 행동 정책을 생성할 수 있는가?
RQ3중앙 집중형 조정은 차례 지정, 참여 및 접지에 어떤 영향을 미치는가?
RQ4구현된 행동 및 지연이 상호작용의 조정 및 참여 인식에 어떤 관찰 가능한 효과를 나타내는가?

주요 결과

프레임워크는 순차적이고 겹치지 않는 발화 및 접지된 구현체 응답으로 일관된 다중 에이전트 상호작용을 가능하게 한다.
각 로봇의 지각–계획–행동 루프는 발화, 시각 및 구현된 행동을 통합하여 맥락에 grounded 추론을 수행한다.
중앙 집중형 조정은 충돌하는 행동을 방지하고 에이전트 간의 구조화된 차례 지정을 강제한다.
시스템은 각 로봇이 자신의 지각 맥락에서 추론하여 맞춤형 응답을 생성하는 분산 추론을 에이전트 간에 시연한다.
언어를 구현된 행동으로 접지하는 것이 방향화된 주소 지정 및 공유 상호작용 맥락으로 나타난다.
시연은 인식 품질과 지연이 상호작용 역학 및 인지된 조정에 어떤 영향을 주는지 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.