QUICK REVIEW

[논문 리뷰] MIRROR: Multimodal Iterative Reasoning via Reflection on Visual Regions

Haoyu Zhang, Yuwei Wu|arXiv (Cornell University)|2026. 02. 21.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

MIRROR는 폐쇄 루프 시각 반사 프레임워크를 통해 비전-언어 모델에서 이미지 영역을 기반으로 하는 반복 추론을 가능하게 하고, 시각 프롬프트 생성기와 ReflectV 데이터셋으로 망상을 줄이며 근거 있는 정확도를 향상시킵니다.

ABSTRACT

In the era of Vision-Language Models (VLMs), enhancing multimodal reasoning capabilities remains a critical challenge, particularly in handling ambiguous or complex visual inputs, where initial inferences often lead to hallucinations or logic errors. Existing VLMs often produce plausible yet ungrounded answers, and even when prompted to "reflect", their corrections may remain detached from the image evidence. To address this, we propose the MIRROR framework for Multimodal Iterative Reasoning via Reflection On visual Regions. By embedding visual reflection as a core mechanism, MIRROR is formulated as a closed-loop process comprising draft, critique, region-based verification, and revision, which are repeated until the output is visually grounded. To facilitate training of this model, we construct **ReflectV**, a visual reflective dataset for multi-turn supervision that explicitly contains reflection triggers, region-based verification actions, and answer revision grounded in visual evidence. Experiments on both general vision-language benchmarks and representative vision-language reasoning benchmarks show that MIRROR improves correctness and reduces visual hallucinations, demonstrating the value of training reflection as an evidence-seeking, region-aware verification process rather than a purely textual revision step.

연구 동기 및 목표

비전-언어 모델이 복잡한 시각 정보를 다룰 때 발생하는 망상 및 근거 없는 추론 문제를 해결한다.
반사를 특정 이미지 영역에 근거시키는 폐쇄 루프 추론 프레임워크를 도입한다.
영역 인지 검증 및 수정 학습을 위한 대규모 시각 반사 가능 데이터세트 ReflectV를 만든다.
시각 반사와 검증이 베이스라인보다 다양한 비전-언어 벤치마크에서 우수함을 입증한다.

제안 방법

MIRROR를 폐쇄 루프 사이클로 제안: 답안을 초안하고, 반사하고 시각 도구로 생성된 프롬프트를 통해 시각적으로 검증하며, 시각적 증거에 근거해 재수정한다.
도구 보강 시각 프롬프트 생성기를 사용하여 작업 관련 영역을 표시하고 이후 턴을 위한 업데이트된 시각 컨텍스트를 생성한다.
각 턴이 (a_k, r_k, v_k)와 시각 업데이트 함수 G를 통한 업데이트된 이미지 I_k를 산출하는 다중 턴 생성을 형성한다.
ReflectV(~24k 샘플)를 이용해 시각 근거를 가진 다중 턴 반사 궤적에 대해 감독학습 파인튜닝으로 학습한다.
시각적 프롬프트에 사용되는 작업 적응형 키워드를 도구 인수로 추출해 텍스트 반영을 시각 반영으로 이동시키고, 피드백을 자기 반성적 사고로 전환한다.

실험 결과

연구 질문

RQ1시각-근거 반성이 다중 모달 추론 작업에서 정답성 및 근거 제시에 어떤 영향을 미치는가?
RQ2영역 인지 프롬프트를 통한 명시적 시각 검증이 텍스트 기반 반영에 비해 시각 망상을 줄이는가?
RQ3ReflectV 기반 학습 및 궤적 적응이 벤치마크 전반의 성능에 어떤 영향을 주는가?
RQ4MIRROR가 모델 규모에 따라 반복적이고 영역-근거 추론을 가능하게 하면서도 효율성을 유지할 수 있는가?

주요 결과

MIRROR(본 논문)은 OCR 및 문서 작업에서 베이스라인보다 우수한 성능을 보이며, Table 3에서 OCRBench 점수 92.00, POPE 점수 94.42와 같은 주목할 만한 향상을 달성한다.
MIRROR는 벤치마크 전반에서 망상을 줄이며, 예를 들어 POPE 및 HallusionBench에서 강력한 베이스라인 대비 상당한 개선을 보인다.
시각 도구를 제거하면 근거 중심 작업의 성능이 저하되어 명시적 시각 검증의 필요성을 강조한다.
ReflectV로의 학습과 폐쇄 루프 시각 반사를 사용하면 일반적 능력, 수학적 추론, 미세한 지각 분야에서 이득이 발생한다.
MIRROR를 적용한 작은 모델(3B)도 경쟁력 있는 결과를 달성할 수 있어, 능력치를 효율적으로 활용한 시각 검증의 이점을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.