[論文レビュー] IRIS: Intent Resolution via Inference-time Saccades for Open-Ended VQA in Large Vision-Language Models
IRIS はリアルタイムの視線追跡データを用いてオープンエンドVQAの参照曖昧性を解消し、10個のVLMに対してモデル学習不要で、曖昧な質問の精度を35.2%から77.2%へ向上させる。
We introduce IRIS (Intent Resolution via Inference-time Saccades), a novel training-free approach that uses eye-tracking data in real-time to resolve ambiguity in open-ended VQA. Through a comprehensive user study with 500 unique image-question pairs, we demonstrate that fixations closest to the time participants start verbally asking their questions are the most informative for disambiguation in Large VLMs, more than doubling the accuracy of responses on ambiguous questions (from 35.2% to 77.2%) while maintaining performance on unambiguous queries. We evaluate our approach across state-of-the-art VLMs, showing consistent improvements when gaze data is incorporated in ambiguous image-question pairs, regardless of architectural differences. We release a new benchmark dataset to use eye movement data for disambiguated VQA, a novel real-time interactive protocol, and an evaluation suite.
研究の動機と目的
- 大規模視覚言語モデル(VLM)でオープンエンドVQAの参照曖昧性に対処する。
- 質問形成時に収集した人間の視線データを活用し、モデルパラメータを変更せずに指示対象を曖昧さなくする。
- speech onset 周囲の視線が曖昧な質問と明確な質問の性能にどの程度寄与するかを示す。
- 視線に基づく情報を用いたリアルタイム、トレーニングフリーの評価プロトコルとデータセットを提供する。
提案手法
- ユーザーが質問を形成する際のリアルタイムな視線注視と発話タイミングを取得。
- 発話onsetの周囲で時間的窓を用いた視線データ処理と、注視中央値を中心とした空間フィルタリングを適用。
- フィルタリング済み視線情報を画像上の十字符号として視覚的文脈に重ね、システムプロンプト経由でVLMへ提示。
- ファインチューニングなしで10個の多様なSOTA VLMを横断評価。
- 複数評価者による人間検証と意味的類似度指標で正解をグラウンド truth として設定。

実験結果
リサーチクエスチョン
- RQ1発話 onset 周辺の視線の情報的時間窓は、曖昧さの解消に有効な期間としてどの程度か?
- RQ2発話 onset 周辺の視線は、VLM アーキテクチャ間で一貫して参照対象を曖昧さなくできるか?
- RQ3視線拡張は曖昧な質問と明確な質問のどちらに対して効果が大きいか?
主な発見
| Model | Image Only (%) | Image+Gaze (%) | Δ (%) | p-value |
|---|---|---|---|---|
| GPT-5 Mini | 49.7 | 83.0 | +33.2 | < 0.001 |
| Gemini 2.5 Flash | 54.2 | 83.3 | +29.0 | < 0.001 |
| Gemini 2.5 Pro | 59.3 | 82.3 | +23.0 | < 0.001 |
| GPT-5 | 53.7 | 76.5 | +22.8 | < 0.001 |
| Claude Sonnet 4 | 54.2 | 74.0 | +19.8 | < 0.001 |
| Ovis 2.5 9B | 52.5 | 69.5 | +17.0 | < 0.001 |
| Claude 4.1 Opus | 55.2 | 72.0 | +16.7 | < 0.001 |
| Qwen 2.5 VL 32B | 56.2 | 73.0 | +16.7 | < 0.001 |
| Qwen 2.5 VL 7B | 51.7 | 63.7 | +12.0 | 0.48 |
| Qwen 2.5 VL 3B | 52.0 | 54.5 | +2.5 | 0.48 |
- 発話 onset 周辺の視線が最も強い曖昧さ解消信号を提供し、曖昧な質問の性能を大幅に向上させる。
- 500組の画像-質問ペアにおいて、視線を追加すると曖昧な質問の精度が35.2%から77.2%へ向上(p<.001)、一方で明確な質問は有意な変化なし。
- 視線拡張は10種の異なるVLMアーキテクチャで一貫した精度向上を示し、指示追従が強いモデルほどより大きな向上を得た。
- 発話 onset の近傍でピーク性能が生じ、約±600 ms の窓で最適化される;±4500 msを超えると全注視に収束する。
- グランドトゥルースとの意味的類似度は曖昧ケースで視線により改善するが、明確ケースでは変化は小さい。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。