[논문 리뷰] Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs
논문은 시선-토큰 감독을 도입하여 시간 순으로 정렬된 시선 추적 데이터를 이용해 의료 비전-언어 모델이 방사선 전문의의 단계별 시각적 추론을 모방하도록 유도하고, 도메인 내 정확도와 제로샷 로버스트니스를 향상시킵니다.
Vision--language models (VLMs) process images as visual tokens, yet their intermediate reasoning is often carried out in text, which can be suboptimal for visually grounded radiology tasks. Radiologists instead diagnose via sequential visual search; eye-tracking captures this process as time-ordered gaze trajectories that reveal how evidence is acquired over time. We use eye-gaze as supervision to guide VLM reasoning by introducing a small set of dedicated gaze tokens. These tokens are trained to predict gaze-selected image patch indices in temporal order, encouraging the model to follow human-like evidence acquisition and integration. Experiments on MIMIC-EYE and multiple external zero-shot benchmarks show consistent gains over baselines, achieving state-of-the-art in-domain performance and improved out-of-domain robustness. These results highlight temporally ordered gaze as an effective supervision signal for learning visually grounded medical reasoning.
연구 동기 및 목표
- 의료 VLM에서 방사선 전문의의 연속적 시선을 시각적 추론 감독 신호로 사용하는 것을 동기로 삼는다.
- 모델 주의(attention)를 시선에서 도출된 패치 인덱스와 정렬시키는 경량 gaze-token 메커니즘을 개발한다.
- 진단 정확도 및 해석 가능성을 개선하면서 고정 형식의 방사선 보고를 가능하게 한다.
- MIMIC-EYE에서의 도메인 내 성능과 외부 방사선 데이터셋에 대한 제로샷 강건성을 평가한다.
제안 방법
- 출력 시퀀스에 네 개의 전용 시선 토큰을 내재한 사전 학습된 VLM 백본(Qwen2.5-VL-7B-Instruct)을 사용한다.
- 시선 토큰의 은닉 상태를 패치 인덱스로 매핑하는 시선 투사 헤드를 학습하여 시선 대상의 시간적 순서를 강제한다.
- 고정 형식의 예/아니오 보고 형식으로 다중 레이블 방사선 소견을 위한 14-레이블 분류기 헤드를 부착한다.
- 1단계는 이산화된 시선 패치를 통한 교차 엔트로피로 gaze-token과 patch-index 정렬을 최적화한다; 2단계는 다중 레이블 BCE 손실을 최적화한다(언어 모델링 손실과의 결합 여부 옵션).
- 백본은 동결한 채 경량의 시선 감독 구성요소를 학습하기 위해 LoRA 어댑터로 미세 조정한다.
- 시선 감독을 이미지 패치 격자로 이산화된 시간 정렬 시선 열지도에서 파생된 패치 인덱스로 표현한다.
실험 결과
연구 질문
- RQ1시간적으로 정렬된 시선 가시화 감독이 의료 VLM의 시각적 근거 추론을 향상시킬 수 있는가?
- RQ2가시선 토큰 감독의 도입이 흉부 X-선 해석에서 명령어-튜닝 기준선보다 향상을 제공하는가?
- RQ3시선 가이드 학습이 도메인 내 성능 및 외부 데이터셋에 대한 도메인 간 일반화에 어떤 영향을 미치는가?
주요 결과
| Method | AUROC | 정확도 | F1 |
|---|---|---|---|
| Vanilla | 49.74 | 42.15 | 43.09 |
| SFT | 87.60 | 86.03 | 84.18 |
| SFT-Heatmap | 87.51 | 86.51 | 84.23 |
| MedCLIP | 87.37 | 86.63 | 84.32 |
| EGMA | 89.49 | 88.11 | 86.20 |
| Random-Gaze | 86.45 | 85.59 | 81.06 |
| Shuffled-Gaze | 88.51 | 87.48 | 84.97 |
| Original-Gaze | 90.17 | 89.02 | 87.61 |
- 시선 가이드 학습은 baseline 대비 도메인 내 일관된 이점을 제공하며, Original-Gaze가 MIMIC-EYE에서 가장 높은 AUROC를 달성했다.
- 1단계 시선 감독과 고정 형식 출력은 명령어 튜닝만으로는 얻기 어려운 성능 향상을 크게 가져왔다.
- 시선 신호의 시간적 순서를 유지하는 것이 무작위나 섞인 시선보다 가장 큰 이점을 제공한다.
- 시선 감독은 CheXpert, RSNA, SIIM-ACR 벤치마크에서 제로샷 정확도 및 F1을 개선해 도메인 외 강건성을 높임을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.