[論文レビュー] Diagnosing Structural Failures in LLM-Based Evidence Extraction for Meta-Analysis
論文は、メタ分析のためのLLMベースの証拠抽出を、構造化されたスキーマ制約付きタスクの進行として検討し、単一プロパティ抽出は中程度の性能を示す一方で、多タスク結合とクロスドキュメントの数値 grounding 推論が著しく失敗し、コーパス全体の統合を損なうことを明らかにする。
Systematic reviews and meta-analyses rely on converting narrative articles into structured, numerically grounded study records. Despite rapid advances in large language models (LLMs), it remains unclear whether they can meet the structural requirements of this process, which hinge on preserving roles, methods, and effect-size attribution across documents rather than on recognizing isolated entities. We propose a structural, diagnostic framework that evaluates LLM-based evidence extraction as a progression of schema-constrained queries with increasing relational and numerical complexity, enabling precise identification of failure points beyond atom-level extraction. Using a manually curated corpus spanning five scientific domains, together with a unified query suite and evaluation protocol, we evaluate two state-of-the-art LLMs under both per-document and long-context, multi-document input regimes. Across domains and models, performance remains moderate for single-property queries but degrades sharply once tasks require stable binding between variables, roles, statistical methods, and effect sizes. Full meta-analytic association tuples are extracted with near-zero reliability, and long-context inputs further exacerbate these failures. Downstream aggregation amplifies even minor upstream errors, rendering corpus-level statistics unreliable. Our analysis shows that these limitations stem not from entity recognition errors, but from systematic structural breakdowns, including role reversals, cross-analysis binding drift, instance compression in dense result sections, and numeric misattribution, indicating that current LLMs lack the structural fidelity, relational binding, and numerical grounding required for automated meta-analysis. The code and data are publicly available at GitHub (https://github.com/zhiyintan/LLM-Meta-Analysis).
研究の動機と目的
- LLMベースの証拠抽出をスキーマ制約タスクとして評価するための、 Relational および数値的複雑性の増加に応じた構造的・診断的フレームワークを導入する。
- 統一された研究スキーマの下で、直接抽出と派生統計推論の両方を網羅する階層的クエリフレームワークを提案する。
- 増加する構造的要求に対して評価するための、 manually curated の多ドメイン評価コーパスを作成・利用する。
- 関係結合、数値 grounding、文書レベル attribution の特定の失敗モードを特定し、自動化されたメタ分析を制限する。
提案手法
- 証拠抽出を、単一原子抽出から多原子結合、そして統一された意味論的研究スキーマの下での構造化統計推論へと段階的にFrameにする。
- オブジェクト中心抽出と方法中心抽出タスクを検証するため、階層的クエリスイート(L1とL2)を定義し、アリティと関係制約を変化させる。
- 金標注付きの制御された多ドメインコーパス(土木工学、医療・健康科学、農業科学、地球・環境科学、社会科学)を使用する。
- 最新の2つのLLM(GPT-5.2と Qwen3-VL)を、1ドキュメントおよび長文コンテキストのマルチドキュメント regime で、タプルレベルの適合率・再現率・F1、厳格な論文帰属マッチルールを用いて評価する。
- 派生統計的照会を含む統一的評価プロトコルを用いて、アグリゲーションの潜在性を評価する。

実験結果
リサーチクエスチョン
- RQ1スキーマ制約付き抽出タスクは、関係性の複雑性が増すにつれて性能はどうなるか(単一プロパティから多エンティティ結合へ)?
- RQ2長文・マルチドキュメント条件下で、変数・役割・方法・効果サイズの正しい結合を維持できるか?
- RQ3上流結合や数値 grounding が不完全な場合、抽出された証拠をコーパスレベル統計に信頼性高く集約できるか?
- RQ4メタ分析証拠抽出を制限する主要な失敗モード(結合の漂移、役割反転、事例の圧縮、数値帰属の誤り)は何か?
- RQ5閉源GPT-5.2とオープンソースQwen3-VLという2つの異なるモデルファミリーは、ドメイン横断の1ドキュメント対長文評価でどのように比較されるか?
主な発見
- LLMsは単一プロパティ(L1)抽出では中程度の性能を示すが、高次結合(L2)では急激に劣化する。
- ドキュメントごとの入力からグローバル(長文コンテキスト)入力 regime へ移行すると、性能低下はドメインとモデルを問わず一貫して現れ、長文文脈は欠陥を悪化させる。
- 完全なメタ分析関連タプルを抽出する際の信頼性はほぼゼロで、下流の集約は小さな上流エラーを拡大する。
- 失敗は、Entity認識エラーよりも、役割反転、文書間の結合漂移、数値の帰属ミスといった構造的問題により生じる。
- 長文コンテキストおよびクロスドキュメント推論は、スキーマ適合型のメタ分析記録に必要な関係結合と数値 grounding の持続的なギャップを露呈する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。