QUICK REVIEW

[論文レビュー] Ground-Truth Depth in Vision Language Models: Spatial Context Understanding in Conversational AI for XR-Robotic Support in Emergency First Response

Rodrigo Gutiérrez, Marita Hueber|arXiv (Cornell University)|Feb 16, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

要約: その論文は混合現実エマージェンシーシナリオにおける深度強化視覚言語モデルのフィードバックを評価し、メートリック深度がビデオのみ・深度非依存VLM支援に対して空間距離の正確さと状況認識を向上させることを示しています。

ABSTRACT

Large language models (LLMs) are increasingly used in emergency first response (EFR) applications to support situational awareness (SA) and decision-making, yet most operate on text or 2D imagery and offer little support for core EFR SA competencies like spatial reasoning. We address this gap by evaluating a prototype that fuses robot-mounted depth sensing and YOLO detection with a vision language model (VLM) capable of verbalizing metrically-grounded distances of detected objects (e.g., the chair is 3.02 meters away). In a mixed-reality toxic-smoke scenario, participants estimated distances to a victim and an exit window under three conditions: video-only, depth-agnostic VLM, and depth-augmented VLM. Depth-augmentation improved objective accuracy and stability, e.g., the victim and window distance estimation error dropped, while raising situational awareness without increasing workload. Conversely, depth- agnostic assistance increased workload and slightly worsened accuracy. We contribute to human SA augmentation by demonstrating that metrically grounded, object-centric verbal information supports spatial reasoning in EFR and improves decision-relevant judgments under time pressure.

研究の動機と目的

緊急初動対応(EFR)における状況認識の向上を、空間的に根拠づけられたAIフィードバックを通じて動機づける。
EFR文脈で深度に対してLLMsが非依存で2D手掛かりに頼るギャップに対処する。
ロボット搭載センサーの真の深度をVLMに組み込むことが空間推論を高めるかを調査する。

提案手法

ロボット搭載の深度センサーとYOLOベースの物体検出および視覚言語モデル(VLM)を統合し、メートリックに根拠づく距離記述を生成する。
深度と検出出力をVLMへ構造化入力として提供し、センチメートルスケールの距離を言語化できるようにする（例:「被害者はロボットの前方約0.8メートルです」）。
混合現実のエマージェンシーシナリオで3条件を比較する：ビデオのみベースライン、深度非依存VLM支援、深度強化VLM支援。
深度カメラ、YOLO検出、およびVLM(qwen2.5vl:32b)を用いたMRオフィス火災/煙シナリオで16名の参加者による統制実験を実施する。
標準化された測定値（状況認識SART、負荷NASA-TLX、音声対話品質SASSI、使いやすさUMUX-Lite、距離推定信頼度）を用いて結果を評価する。

実験結果

リサーチクエスチョン

RQ1RQ: 深度強化VLMは、(a)ビデオのみ推定、(b)深度非依存VLMより、初動対応者へより良い空間推論支援を提供するか？
RQ2RQ: 深度強化VLMは、時間圧力下で距離推定誤差を減少させ、タスク関連判断を改善するか？
RQ3RQ: 深度強化はMR-EFRタスクにおける負荷、状況認識、知覚された相互作用品質にどのように影響するか？

主な発見

測定項目	C1 平均 (SD)	C2 平均 (SD)	C3 平均 (SD)
NASA-TLX (Workload)	2.56 (1.16)	3.30 (1.26)	3.29 (1.74)
SART (Situational Awareness)	3.70 (1.00)	4.19 (0.91)	4.74 (0.88)
SASSI (Voice Interaction)	4.21 (0.86)	4.41 (0.32)	4.48 (1.12)
UMUX (Perceived Usability)	4.86 (1.46)	4.11 (1.54)	5.00 (0.89)
Confidence (Distance Est.)	3.89 (2.20)	4.11 (2.42)	4.57 (1.90)

深度強化VLMは、被害者（真値3.22 m; C1 2.64 m誤差0.58 m; C3 2.97 m誤差0.25 m）および窓（真値4.45 m; C1 4.56 m誤差0.11 m; C3 4.37 m誤差0.08 m）の距離推定誤差を低減した。
深度強化は距離推定の客観的精度を向上させ、ばらつき(SD)を減少させた一方、深度非依存VLMはベースラインと比較して精度をわずかに悪化させた。
深度強化条件は最高の状況認識SARTスコアを示し（M=4.74, SD=0.88）、負荷はベースラインと同程度で、SAを向上させつつ負荷を増やさないことを示唆した。
音声対話品質(SASSI)は条件を超えて高い水準を維持し、安定した音声相互作用を示した。
有用性の知覚(UMUX-Lite)は深度強化支援下で最も高く、タスクニーズと一致した。
参加者は深度強化支援下で距離推定の自信度が高いと報告した（C3が高い）一方、ベースラインや深度非依存支援より高い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。