Skip to main content
QUICK REVIEW

[論文レビュー] IRIS: Intent Resolution via Inference-time Saccades for Open-Ended VQA in Large Vision-Language Models

Parsa Madinei, Srijita Karmakar|arXiv (Cornell University)|Feb 18, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

IRIS はリアルタイムの視線追跡データを用いてオープンエンドVQAの参照曖昧性を解消し、10個のVLMに対してモデル学習不要で、曖昧な質問の精度を35.2%から77.2%へ向上させる。

ABSTRACT

We introduce IRIS (Intent Resolution via Inference-time Saccades), a novel training-free approach that uses eye-tracking data in real-time to resolve ambiguity in open-ended VQA. Through a comprehensive user study with 500 unique image-question pairs, we demonstrate that fixations closest to the time participants start verbally asking their questions are the most informative for disambiguation in Large VLMs, more than doubling the accuracy of responses on ambiguous questions (from 35.2% to 77.2%) while maintaining performance on unambiguous queries. We evaluate our approach across state-of-the-art VLMs, showing consistent improvements when gaze data is incorporated in ambiguous image-question pairs, regardless of architectural differences. We release a new benchmark dataset to use eye movement data for disambiguated VQA, a novel real-time interactive protocol, and an evaluation suite.

研究の動機と目的

  • 大規模視覚言語モデル(VLM)でオープンエンドVQAの参照曖昧性に対処する。
  • 質問形成時に収集した人間の視線データを活用し、モデルパラメータを変更せずに指示対象を曖昧さなくする。
  • speech onset 周囲の視線が曖昧な質問と明確な質問の性能にどの程度寄与するかを示す。
  • 視線に基づく情報を用いたリアルタイム、トレーニングフリーの評価プロトコルとデータセットを提供する。

提案手法

  • ユーザーが質問を形成する際のリアルタイムな視線注視と発話タイミングを取得。
  • 発話onsetの周囲で時間的窓を用いた視線データ処理と、注視中央値を中心とした空間フィルタリングを適用。
  • フィルタリング済み視線情報を画像上の十字符号として視覚的文脈に重ね、システムプロンプト経由でVLMへ提示。
  • ファインチューニングなしで10個の多様なSOTA VLMを横断評価。
  • 複数評価者による人間検証と意味的類似度指標で正解をグラウンド truth として設定。
Figure 1: IRIS overview . Participant asks an ambiguous question about an image while their eyes are being tracked. The VLM uses the fixation data (marked as a white cross) to disambiguate the query and provide an accurate response in real-time.
Figure 1: IRIS overview . Participant asks an ambiguous question about an image while their eyes are being tracked. The VLM uses the fixation data (marked as a white cross) to disambiguate the query and provide an accurate response in real-time.

実験結果

リサーチクエスチョン

  • RQ1発話 onset 周辺の視線の情報的時間窓は、曖昧さの解消に有効な期間としてどの程度か?
  • RQ2発話 onset 周辺の視線は、VLM アーキテクチャ間で一貫して参照対象を曖昧さなくできるか?
  • RQ3視線拡張は曖昧な質問と明確な質問のどちらに対して効果が大きいか?

主な発見

ModelImage Only (%)Image+Gaze (%)Δ (%)p-value
GPT-5 Mini49.783.0+33.2< 0.001
Gemini 2.5 Flash54.283.3+29.0< 0.001
Gemini 2.5 Pro59.382.3+23.0< 0.001
GPT-553.776.5+22.8< 0.001
Claude Sonnet 454.274.0+19.8< 0.001
Ovis 2.5 9B52.569.5+17.0< 0.001
Claude 4.1 Opus55.272.0+16.7< 0.001
Qwen 2.5 VL 32B56.273.0+16.7< 0.001
Qwen 2.5 VL 7B51.763.7+12.00.48
Qwen 2.5 VL 3B52.054.5+2.50.48
  • 発話 onset 周辺の視線が最も強い曖昧さ解消信号を提供し、曖昧な質問の性能を大幅に向上させる。
  • 500組の画像-質問ペアにおいて、視線を追加すると曖昧な質問の精度が35.2%から77.2%へ向上(p<.001)、一方で明確な質問は有意な変化なし。
  • 視線拡張は10種の異なるVLMアーキテクチャで一貫した精度向上を示し、指示追従が強いモデルほどより大きな向上を得た。
  • 発話 onset の近傍でピーク性能が生じ、約±600 ms の窓で最適化される;±4500 msを超えると全注視に収束する。
  • グランドトゥルースとの意味的類似度は曖昧ケースで視線により改善するが、明確ケースでは変化は小さい。
Figure 2: Experimental procedure. A central fixation check was enforced, after which participants freely viewed each image and asked any question aloud about it. Once 1.5s of silence elapsed following the question, the VLM was prompted with (i) the image, (ii) the transcribed question, and (iii) the
Figure 2: Experimental procedure. A central fixation check was enforced, after which participants freely viewed each image and asked any question aloud about it. Once 1.5s of silence elapsed following the question, the VLM was prompted with (i) the image, (ii) the transcribed question, and (iii) the

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。