QUICK REVIEW

[論文レビュー] A Multimodal Framework for Human-Multi-Agent Interaction

Shaid Hasan, Breenice Lee|arXiv (Cornell University)|Mar 24, 2026

Social Robot Interaction and HRI被引用数 0

ひとこと要約

この論文は、各 humanoid ロボットが知的エージェントとして知覚・計画・行動モジュールを持ち、中央の仕組みによって自然な人間と複数エージェントの共有空間での相互作用を可能にする multimodal, LLM 主導のフレームワークを提示する。

ABSTRACT

Human-robot interaction is increasingly moving toward multi-robot, socially grounded environments. Existing systems struggle to integrate multimodal perception, embodied expression, and coordinated decision-making in a unified framework. This limits natural and scalable interaction in shared physical spaces. We address this gap by introducing a multimodal framework for human-multi-agent interaction in which each robot operates as an autonomous cognitive agent with integrated multimodal perception and Large Language Model (LLM)-driven planning grounded in embodiment. At the team level, a centralized coordination mechanism regulates turn-taking and agent participation to prevent overlapping speech and conflicting actions. Implemented on two humanoid robots, our framework enables coherent multi-agent interaction through interaction policies that combine speech, gesture, gaze, and locomotion. Representative interaction runs demonstrate coordinated multimodal reasoning across agents and grounded embodied responses. Future work will focus on larger-scale user studies and deeper exploration of socially grounded multi-agent interaction dynamics.

研究の動機と目的

共有環境での社会的に基づく多ロボット HRI の必要性を動機づける。
各ロボットが多モーダル知覚と具現化された行動を持つ自律的認知エージェントとなるフレームワークを提案する。
複数エージェント間のターン-taking と参加を管理する中央集権的な協調を Demonstrate する。
視覚–言語知覚、LLM 主導の計画、具現化されたモジュール的ループ内の行動実行を統合する。

提案手法

各ロボットは知覚、計画、行動実行を備えたモジュラーなクローズドループエージェントである。
知覚はモダリティを組み合わせた入力（音声と視覚）を視覚–言語モデルで処理して構造化観察を生成する。
計画は構造化された入力に条件づけられたLLMを用いて、ロボットの具現化能力に制約された順序付けられたパラメータ化された行動方策を生成する。
行動はパラメータ化されたプリミティブの連続（音声、ジェスチャー、視線、移動など）を実行し、状態フィードバックを返す。
中央のコーディネーターは全エージェントの応答可能性を評価してターン-taking と参加を調整し、重複のない発話と協調的な行動を保証する。
二つのヒューマノイドロボットを用いたデモンストレーションは、相互作用シナリオにおける多モーダルなグラウンディングと協調的実体化を illustrating する。

実験結果

リサーチクエスチョン

RQ1多モーダル知覚をどのように統合して多エージェント HRI の一貫した相互作用文脈を生成できるか？
RQ2LLM 主導の計画は、各エージェントの能力を尊重する実行可能な具現化された行動方策を生成できるか？
RQ3中央集権的協調は、人間と複数エージェントの相互作用におけるターン-taking、参加、グラウンディングにどのような影響を与えるか？
RQ4具現化された行動と遅延が相互作用の協調感と関与感に与える observable な影響は何か？

主な発見

このフレームワークは、順次的で重複しない発話とグラウンデッドな具現化応答を伴う、整合的な多エージェント相互作用を実現する。
各ロボットの知覚–計画–行動ループは、発話、視覚、具現化挙動を統合して文脈に基づく推論を可能にする。
中央集権的協調は衝突する行為を防ぎ、エージェント間の構造化されたターン-taking を強制する。
システムはエージェント間で分散推論を示し、各ロボットが自身の知覚文脈から推論して個別の応答を生成する。
言語を具現化された行動へとグラウンディングすることを達成し、指向的な対話と共有された相互作用文脈によって確認される。
知覚品質と遅延が相互作用のダイナミクスと認知された協調性に与える影響をデモンストレーションは強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。