QUICK REVIEW

[論文レビュー] Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

Yiwei Li, Zihao Wu|arXiv (Cornell University)|Mar 5, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

この論文は視線トークンの監視を導入し、時系列に並んだ眼球運動データを用いて医療ビジョン-言語モデルが放射線科医のステップバイステップの視覚的推論を模倣するよう導くことで、ドメイン内の精度とゼロショットの頑健性を向上させる。

ABSTRACT

Vision--language models (VLMs) process images as visual tokens, yet their intermediate reasoning is often carried out in text, which can be suboptimal for visually grounded radiology tasks. Radiologists instead diagnose via sequential visual search; eye-tracking captures this process as time-ordered gaze trajectories that reveal how evidence is acquired over time. We use eye-gaze as supervision to guide VLM reasoning by introducing a small set of dedicated gaze tokens. These tokens are trained to predict gaze-selected image patch indices in temporal order, encouraging the model to follow human-like evidence acquisition and integration. Experiments on MIMIC-EYE and multiple external zero-shot benchmarks show consistent gains over baselines, achieving state-of-the-art in-domain performance and improved out-of-domain robustness. These results highlight temporally ordered gaze as an effective supervision signal for learning visually grounded medical reasoning.

研究の動機と目的

放射線科医の連続視線を医療VLMの視覚的推論監視信号として動機付ける。
モデルの注意機構を視線由来のパッチインデックスと整合させる軽量な視線トークン機構を開発する。
固定フォーマットの放射線報告を維持しつつ診断精度と解釈性を向上させる。
MIMIC-EYEでのドメイン内性能を評価し、外部データセットでのゼロショット頑健性を測る。

提案手法

出力系列に4つの専用視線トークンを埋め込んだ、事前学習済みVLMバックボーン（Qwen2.5-VL-7B-Instruct）を使用する。
視線トークンの隠れ状態をパッチインデックスにマッピングし、視線ターゲットの時系列順を強制する視線プロジェクションヘッドを訓練する。
固定フォーマットのYes/Noレポート形式で多ラベル放射線所見を表す14ラベルの分類ヘッドを追加する。
ステージ1は離散化した視線パッチ上でのクロスエントロピーを通じた視線トークンとパッチインデックスの整合性を最適化する。ステージ2は多ラベル BCE 損失を最適化する（必要に応じて言語モデリング損失と併用）。
バックボーンを凍結したまま軽量な視線監視部を学習させるためLoRAアダプタでファインチューニングする。
視線監視を、時間揃えられた視線ヒートマップから離散化して画像パッチグリッドに対応するパッチインデックスとして表現する。

実験結果

リサーチクエスチョン

RQ1時系列で整列した視線監視が医療VLMの視覚的根拠に基づく推論を改善できるか？
RQ2視線トークン監視を組み込むことで、胸部X線解釈における指示調整ベースラインより改善をもたらすか？
RQ3視線誘導トレーニングはドメイン内性能と外部データセットへの汎化にどのように影響するか？

主な発見

Method	AUROC	Acc.	F1
Vanilla	49.74	42.15	43.09
SFT	87.60	86.03	84.18
SFT-Heatmap	87.51	86.51	84.23
MedCLIP	87.37	86.63	84.32
EGMA	89.49	88.11	86.20
Random-Gaze	86.45	85.59	81.06
Shuffled-Gaze	88.51	87.48	84.97
Original-Gaze	90.17	89.02	87.61

視線誘導トレーニングはベースラインに対してドメイン内で一貫した利得をもたらし、Original-GazeがMIMIC-EYEで最も高いAUROCを達成した。
ステージ1の視線監視と固定フォーマット出力は、指示調整のみより性能を大幅に向上させる。
視線信号の時系列順を保持することは、ランダムまたはシャッフル視線よりも最も大きな利得を提供する。
視線監視はゼロショットの精度とF1をCheXpert、RSNA、SIIM-ACRのベンチマークで改善し、外部データへの頑健性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。