QUICK REVIEW

[論文レビュー] BRIDGE: Benchmark for multi-hop Reasoning In long multimodal Documents with Grounded Evidence

Biao Xiang, Soyeon Caren Han|arXiv (Cornell University)|Mar 9, 2026

Topic Modeling被引用数 0

ひとこと要約

BRIDGE は、テキスト・表・図にまたがる明示的な grounding 証拠を必要とする長文の多段・跨模態推論を要する科学論文の長尺マルチモーダル QA ベンチマークを導入し、ステップレベルの注釈と評価を提供する。

ABSTRACT

Multi-hop question answering (QA) is widely used to evaluate the reasoning capabilities of large language models, yet most benchmarks focus on final answer correctness and overlook intermediate reasoning, especially in long multimodal documents. We introduce BRIDGE, a benchmark for multi-hop reasoning over long scientific papers that require integrating evidence across text, tables, and figures. The dataset supports both chain-like and fan-out structures and provides explicit multi-hop reasoning annotations for step-level evaluation beyond answer accuracy. Experiments with state-of-the-art LLMs and multimodal retrieval-augmented generation (RAG) systems reveal systematic deficiencies in evidence aggregation and grounding that remain hidden under conventional answer-only evaluation. BRIDGE provides a targeted testbed for diagnosing reasoning failures in long multimodal documents.

研究の動機と目的

長く異種の科学文書に対する多段推論の評価を、最終解の正確さだけでなく動機づけとして促進する。
中間推論の明示的注釈と、細粒度分析のための構造化エラー分類を提供する。
チェーン型およびファンアウト型の推論構造の両方をサポートし、 grounding および証拠の網羅性の欠陥を診断する。

提案手法

レイアウト認識付き抽出を用いて PDF/LaTeX ソースをテキスト、表、図にパースした、262 件の長文科学論文（主に NLP/ビジョン分野）から BRIDGE を構築する。
2 段階のプロンプティング枠組み（Structure Mining と Constraint-Guided Generation）と3 種類の質問タイプ（因果、比較、要約）を用いて多段 QA ペアを生成する。
ルールベースの事前フィルタリングと grounding、忠実性、推論深度を判断する LLM ベースの評価を組み合わせた2段階の品質フィルターを適用する。
各 QA ペアに、ページ間・モダリティを横断する明示的な証拠チェーンを付与し、ステップレベルの評価を可能にする。
生成モデルとして複数の LLM を用いる統合パイプラインで評価を行い、答えの正確さと証拠の整合性を judge として指定する LLM、さらに ROUGE/BLEU を lexical メトリクスとして用いる。
質問タイプ、ページ深度、証拠モダリティ別の詳密なエラー分類と内訳を用いて結果を分析する。

Figure 1. Representative examples of comparative (Cp), abstractive (Ab), and causal reasoning (Re) questions (top), and the corresponding pages where evidences locate (bottom). Mod.: involved modalities (T: text; Tb: table; F: figure).

実験結果

リサーチクエスチョン

RQ1最先端の大規模言語モデル（LLM）と多模態リトリーバー-GAN 系のシステムが、長く多模態の科学論文で多段推論を要するタスクでどれだけ性能を発揮するか？
RQ2モデルが grounding にどの程度依存しているか、証拠 grounding と跨モダリティの整合性が最終解にどのように影響するか？
RQ3長文の多模模態文書 QA における主な失敗モード（ evid ence の統合、 grounding、網羅性）は何か、リトリーバル戦略がエンドツーエンド性能にどう影響するか？
RQ4因果、比較、要約といった異なる質問タイプ、およびテキスト、表、図といったモダリティが、モデルの性能と grounding にどのような影響を与えるか？

主な発見

BRIDGE には3つのタスクタイプと多様なホップパターンにわたる証拠チェーンが注釈付きで含まれる QA ペアが11,857件ある。
ColPali ベースの RAG リトリーバルは、長尺の多段モードでエンドツーエンドの QA 性能を著しく低下させ、リトリーバルと grounding の不整合を示唆する。
Judge ベースの指標では、ChatGPT が戦略全体で監査/正確性の最高を達成する一方、強力なモデルは一般的に小型モデルを上回るが、 lexical overlap 指標（ROUGE-BLEU）は事実 grounding と乖離する可能性がある。
証拠が深いページへ移動すると性能が低下し、表ベースの証拠はテキストや図よりも多くのモデルで難易度が高い。
因果推論の質問は強力なモデルにとって相対的に安定している一方、比較質問は特にリトリーバルベースのパイプラインで最も困難な課題となる。
モダリティ横断では、図の証拠は表より強力なモデルにとって扱いやすい一方、表が支配的な質問は grounding 欠陥による影響を最も受ける。

Figure 2 . Distribution of QA instances by hop depth, number of distinct pages involved, and hop pattern, broken down by question type (Abstractive, Causal, Comparative)

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。