QUICK REVIEW

[논문 리뷰] V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval

Dongyang Chen, Wang, Chaoyang|arXiv (Cornell University)|2026. 02. 05.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

V-Retrver는 외부 도구를 사용한 다중모달 추론과 표적 시각 검증을 교차하는 증거 기반의 에이전트적 검색 프레이워크를 도입하여 다중모달 벤치마크에서 검색 정확도와 일반화에 상당한 향상을 달성한다.

ABSTRACT

Multimodal Large Language Models (MLLMs) have recently been applied to universal multimodal retrieval, where Chain-of-Thought (CoT) reasoning improves candidate reranking. However, existing approaches remain largely language-driven, relying on static visual encodings and lacking the ability to actively verify fine-grained visual evidence, which often leads to speculative reasoning in visually ambiguous cases. We propose V-Retrver, an evidence-driven retrieval framework that reformulates multimodal retrieval as an agentic reasoning process grounded in visual inspection. V-Retrver enables an MLLM to selectively acquire visual evidence during reasoning via external visual tools, performing a multimodal interleaved reasoning process that alternates between hypothesis generation and targeted visual verification.To train such an evidence-gathering retrieval agent, we adopt a curriculum-based learning strategy combining supervised reasoning activation, rejection-based refinement, and reinforcement learning with an evidence-aligned objective. Experiments across multiple multimodal retrieval benchmarks demonstrate consistent improvements in retrieval accuracy (with 23.0% improvements on average), perception-driven reasoning reliability, and generalization.

연구 동기 및 목표

정적 시각 인코딩에 의존하는 언어 기반 검색의 한계를 해결한다.
보편적 다중모달 검색을 위한 증거에 기반한 에이전트식 재정렬 프레임워크를 개발한다.
추론, 도구 사용 및 순위를 정렬하는 것을 맞추기 위한 커리큘럼 기반 접근법으로 학습한다.
정교한 불확실성을 해소하기 위해 추론 중에 동적 시각 검증을 가능하게 한다.

제안 방법

Embed-and-propose: 임베딩 모델을 사용하여 상위 K개의 후보를 검색하고 후보 풀을 축소한다 (K << N).
Multimodal interleaved evidence reasoning (MIER): 외부 도구를 통한 반복적 가설 생성과 시각 증거 검증.
시각 도구: SELECT-IMAGE는 점검할 후보를 선택하고 ZOOM-IN은 국부적 속성 분석을 수행한다.
커리큘럼 기반 학습: Stage I 합성 CoT 데이터로 Cold-start SFT; Stage II 거부 샘플링 파인튜닝; Stage III 증거 정렬 정책 최적화(EAPO)를 GRPO를 통해.
증거 정렬 보상: 형식 준수, 소프트 랭킹, 도구 사용 보상으로 정책 최적화를 안내.
최적화: GRPO 기반 objective로 정규화된 이점을 가진 에이전트를 학습한다.

Figure 1 : Comparison between text-based CoT (left) and multimodal interleaved CoT (right) for multimodal retrieval. Text-based CoT relies on language-driven inference over static visual representations, often failing to resolve fine-grained differences. In contrast, V-Retrver performs multimodal in

실험 결과

연구 질문

RQ1V-Retrver가 보편적 다중모달 검색 벤치마크에서 강력한 기준선보다 성능을 낼 수 있는가?
RQ2외부 도구와의 교차 시각적 추론이 시각적으로 모호한 사례에서 근거화와 순위 신뢰성을 향상시키는가?
RQ33단계 커리큘럼이 추론 품질, 도구 사용, 검색 성능에 미치는 영향은 무엇인가?
RQ4이 방법은 보지 않은 도메인 및 보류된 모달리티 조합에 얼마나 잘 일반화되는가?

주요 결과

V-Retrver-7B는 M-BEIR에서 평균 Recall 69.7%로 최첨단을 달성했으며, 가장 강력한 기준선보다 4.9포인트를 상회했다.
모델은 세밀한 시각 구분에 뛰어나며, 특히 상세한 시각 점검이 필요한 작업에서 두각을 나타낸다 (예: FIQ 및 CIRR의 q^i,q^t → c^i).
제로샷 평가에서 보지 않은 데이터셋에 대한 강한 일반화를 보이며 (예: CIRCO MAP@5 48.2; GeneCIS R@1 30.7).
보류된 작업 평가에서 평균 Recall 61.1%를 보고했고, 이전 최고치를 10.2% 포인트 상회했다.
적분 연구(Ablation) 결과 전체 3단계 커리큘럼과 도구 기반 추론이 최상의 성능(평균 Recall 67.2%)을 가져오며, 시각 도구가 텍스트 전용 CoT 기준선보다 의미 있게 우수하다(67.2% vs 61.8%).

Figure 2 : Overview of the V-Retrver framework. The left panel illustrates the inference pipeline, featuring a coarse-to-fine process with embedding-based retrieval and agentic reranking. The right panel details the three training stages we proposed, including Cold Start, Rejection sampling Fine-Tun

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.