QUICK REVIEW

[論文レビュー] MIRROR: Multimodal Iterative Reasoning via Reflection on Visual Regions

Haoyu Zhang, Yuwei Wu|arXiv (Cornell University)|Feb 21, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

MIRRORは閉ループの視覚反射フレームワークを導入し、画像領域を基盤とする逐次推論を視覚プロンプト生成器とReflectVデータセットで支え、幻覚を低減し grounded 精度を向上させる。

ABSTRACT

In the era of Vision-Language Models (VLMs), enhancing multimodal reasoning capabilities remains a critical challenge, particularly in handling ambiguous or complex visual inputs, where initial inferences often lead to hallucinations or logic errors. Existing VLMs often produce plausible yet ungrounded answers, and even when prompted to "reflect", their corrections may remain detached from the image evidence. To address this, we propose the MIRROR framework for Multimodal Iterative Reasoning via Reflection On visual Regions. By embedding visual reflection as a core mechanism, MIRROR is formulated as a closed-loop process comprising draft, critique, region-based verification, and revision, which are repeated until the output is visually grounded. To facilitate training of this model, we construct **ReflectV**, a visual reflective dataset for multi-turn supervision that explicitly contains reflection triggers, region-based verification actions, and answer revision grounded in visual evidence. Experiments on both general vision-language benchmarks and representative vision-language reasoning benchmarks show that MIRROR improves correctness and reduces visual hallucinations, demonstrating the value of training reflection as an evidence-seeking, region-aware verification process rather than a purely textual revision step.

研究の動機と目的

複雑な画像を扱う際の vision-language モデルにおける幻覚と根拠のない推論の問題に対処する。
反射を特定の画像領域に grounding する閉ループ推論フレームワークを導入する。
領域意識の検証と修正を訓練する大規模な視覚反射データセット ReflectV を作成する。
視覚反射と検証を組み合わせると、さまざまな vision-language ベンチマークでベースラインを上回ることを示す。

提案手法

MIRRORを閉ループサイクルとして提案する：回答を下書きし、反射し、ツール生成プロンプトを介して視覚的に検証し、視覚的証拠に grounding された修正を行う。
ツール拡張型の視覚的プロンプト生成器を用いてタスク関連領域をマークし、次のターンの更新された視覚文脈を生成する。
各ターンが(a_k, r_k, v_k)と視覚更新関数Gによる更新画像I_kを生み出す多ターン生成を定式化する。
ReflectV (~24kサンプル)で、視覚 grounding を伴う多ターン反射軌跡の教師ありファインチューニングを行う。
テキストの反射を、視覚プロンプトのツール引数として使われるタスク適応キーワードとして抽出し、フィードバックを自己反省的思考へと変換して grounding を行う。

実験結果

リサーチクエスチョン

RQ1視覚 grounding を伴う反射は、多模態推論タスクの正確性と grounding にどのような影響を与えるのか。
RQ2領域認識プロンプトを介した明示的な視覚検証は、テキストのみの反射と比較して視覚幻覚を減らすのか。
RQ3ReflectVベースの訓練と軌跡適応は、ベンチマーク全体の性能にどのような影響を与えるのか。
RQ4モデル規模を超えて反復的で領域 grounding を伴う推論を維持しつつ、MIRRORは効率を保てるのか。

主な発見

MIRROR（我々）は OCR & 文書タスクでベースラインを上回り、Table 3 におけるOCRBenchスコア92.00およびPOPEスコア94.42といった顕著な向上を達成。
MIRROR はベンチマーク全体で幻覚を低減し、POPEやHallusionBenchで強力なベースラインを上回る顕著な改善を示す。
視覚ツールを除去すると、 grounding が重要なタスクの性能が劣化することが確認され、明示的な視覚検証の必要性を裏付ける。
ReflectVでの訓練と閉ループ型視覚反射を用いると、一般的能力、数理推論、および微細な知覚の分野で改善が見られる。
MIRRORを用いた小型モデル（3B）でも競争力のある結果を得られ、能動的な視覚検証のパラメータ効率の利点を示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。