QUICK REVIEW

[논문 리뷰] BRIDGE: Benchmark for multi-hop Reasoning In long multimodal Documents with Grounded Evidence

Biao Xiang, Soyeon Caren Han|arXiv (Cornell University)|2026. 03. 09.

Topic Modeling인용 수 0

한 줄 요약

BRIDGE는 텍스트, 표, 그림에 걸친 명시적 근거 증거와 다중 홉, 교차 모달 추론을 요구하는 과학 논문에 대한 장기 멀티모달 QA 벤치마크를 도입하며, 단계별 주석 및 평가를 제공합니다.

ABSTRACT

Multi-hop question answering (QA) is widely used to evaluate the reasoning capabilities of large language models, yet most benchmarks focus on final answer correctness and overlook intermediate reasoning, especially in long multimodal documents. We introduce BRIDGE, a benchmark for multi-hop reasoning over long scientific papers that require integrating evidence across text, tables, and figures. The dataset supports both chain-like and fan-out structures and provides explicit multi-hop reasoning annotations for step-level evaluation beyond answer accuracy. Experiments with state-of-the-art LLMs and multimodal retrieval-augmented generation (RAG) systems reveal systematic deficiencies in evidence aggregation and grounding that remain hidden under conventional answer-only evaluation. BRIDGE provides a targeted testbed for diagnosing reasoning failures in long multimodal documents.

연구 동기 및 목표

긴 이질적인 과학 문서에서 최종 답변 정확도 이상으로 다중 홉 추론의 평가를 촉진한다.
명시적 중간 추론 주석과 세밀한 분석을 위한 구조화된 오류 분류 체계를 제공한다.
근거 제시 및 증거 적용 커버리지 실패를 진단하기 위해 체인형 및 분산형(팬아웃) 추론 구조를 모두 지원한다.

제안 방법

레이아웃 인식 추출을 사용하여 텍스트, 표 및 그림으로 파싱된 PDF/LaTeX 원본에서 262편의 긴 과학 논문(NLP/비전이 주를 이룸)으로 BRIDGE를 구성한다.
구조 마이닝과 제약 가이드 생성을 포함한 두 단계 프롬프팅 프레임워크와 세 가지 질문 유형(인과, 비교, 추상적)을 사용하여 다중 홉 QA 쌍을 생성한다.
근거성, 충실성 및 추론 깊이를 위한 규칙 기반 프리필터링과 LLM 기반 판단의 두 단계 품질 필터를 적용한다.
각 QA 쌍에 페이지 및 모달리티를 넘나드는 명시적 증거 체인을 주석으로 달아 단계 수준 평가를 위한 정보를 제공한다.
생성기를 다수의 LLM으로 두고 판단기로 지정된 LLM을 활용한 일원화된 파이프라인으로 정답 정확성과 증거 정렬을 평가하고, ROUGE/BLEU를 어휘 지표로 사용할 것이다.
질문 유형, 페이지 깊이 및 증거 모달리티에 따른 세부 오류 분류 체계 및 분석으로 결과를 분석한다.

Figure 1. Representative examples of comparative (Cp), abstractive (Ab), and causal reasoning (Re) questions (top), and the corresponding pages where evidences locate (bottom). Mod.: involved modalities (T: text; Tb: table; F: figure).

실험 결과

연구 질문

RQ1최신 LLM과 다중 모달 리트리버-GAN 시스템이 다중 홉 추론을 요구하는 긴 다중 모달 과학 문서에서 얼마나 잘 작동하는가?
RQ2모델이 근거 제시에 얼마나 의존하는지와 증거 근거 제시 및 교차 모달 일관성이 최종 답변에 어떤 영향을 미치는가?
RQ3긴 다중 모달 문서 QA에서 주요 실패 모드(증거 집계, 근거 제시, 커버리지)는 무엇이며, 검색 전략이 엔드-투-엔드 성능에 어떤 영향을 미치는가?
RQ4다른 질문 유형(인과, 비교, 추상)과 모달리티(텍스트, 표, 그림)가 모델의 성능 및 근거 제시에 어떤 영향을 미치는가?

주요 결과

BRIDGE는 세 가지 작업 유형과 다양한 홉 패턴에 걸친 주석이 달린 증거 체인을 포함한 11,857개 QA 쌍을 담고 있다.
ColPali 기반 RAG 검색은 긴 다중 모달, 다중 홉 설정에서 엔드-투-엔드 QA 성능을 현저히 저하시켜 검색-근거 매칭 불일치를 시사한다.
판단자 기반 지표는 ChatGPT가 전략 전반에서 가장 높은 감사/정확성을 달성하는 것으로 나타났고, 강력한 모델이 일반적으로 더 작은 모델을 능가하지만 어휘 중복 지표(ROUGE-BLEU)는 사실 근거와 다르게 나타날 수 있다.
증거가 더 깊은 페이지로 이동할수록 성능이 감소하고 표 기반 증거는 대부분의 모델에서 텍스트나 그림보다 일반적으로 더 어려운 것으로 나타났다.
인과 추론 질문은 강력한 모델에서 상대적으로 안정적이나, 비교 질문이 특히 검색 기반 파이프라인하에서 가장 어려운 도전 과제이다.
모달리티 전반에 걸쳐 그림 증거가 강력한 모델에게는 표 증거보다 더 쉬우나, 표 중심의 질문은 근거 격차로 가장 큰 타격을 받는다.

Figure 2 . Distribution of QA instances by hop depth, number of distinct pages involved, and hop pattern, broken down by question type (Abstractive, Causal, Comparative)

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.