QUICK REVIEW

[논문 리뷰] Multimodal Fact-Level Attribution for Verifiable Reasoning

David Wan, Han Wang|arXiv (Cornell University)|2026. 02. 12.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

이 논문은 MURGAT을 소개합니다, 다중 모달 추론 벤치마크로 모델이 검증 가능하고 인용 가능한 답을 시간 및 모달리티별 인용과 함께 생성해야 하며, 자동 채점 파이프라인(MURGAT-SCORE)을 제시하여 주장 근거 제시 및 인용 품질을 평가합니다.

ABSTRACT

Multimodal large language models (MLLMs) are increasingly used for real-world tasks involving multi-step reasoning and long-form generation, where reliability requires grounding model outputs in heterogeneous input sources and verifying individual factual claims. However, existing multimodal grounding benchmarks and evaluation methods focus on simplified, observation-based scenarios or limited modalities and fail to assess attribution in complex multimodal reasoning. We introduce MuRGAt (Multimodal Reasoning with Grounded Attribution), a benchmark for evaluating fact-level multimodal attribution in settings that require reasoning beyond direct observation. Given inputs spanning video, audio, and other modalities, MuRGAt requires models to generate answers with explicit reasoning and precise citations, where each citation specifies both modality and temporal segments. To enable reliable assessment, we introduce an automatic evaluation framework that strongly correlates with human judgments. Benchmarking with human and automated scores reveals that even strong MLLMs frequently hallucinate citations despite correct reasoning. Moreover, we observe a key trade-off: increasing reasoning depth or enforcing structured grounding often degrades accuracy, highlighting a significant gap between internal reasoning and verifiable attribution.

연구 동기 및 목표

이질적인 입력에 기초한 신뢰할 수 있고 검증 가능한 다중 모달 추론을 촉진한다.
정확한 모달리티와 시간 인용을 통해 사실 수준의 귀속을 평가하기 위해 MURGAT를 제안한다.
평가를 검증 가능한 주장 식별, 원자적 사실 분해, 그리고 귀속 품질의 분해로 나눈다.
사람 판단과 강하게 상관되는 자동적이고 확장 가능한 척도(MURGAT-SCORE)를 개발한다.

제안 방법

특정 모달리티와 타임스탬프에 연결된 명시적 추론과 인용으로 질문에 답하는 MLLM을 정의하는 MURGAT를 정의한다.
세 가지 하위 작업 평가: 검증 가능한 주장 식별, 원자적 사실 분해, 그리고 귀속 품질.
원자적 사실은 맥락으로부터 분리되고 인용 세트와 함께 제시되어 인용이 각 원자적 사실을 함의하는지 측정한다.
귀속 품질을 평가하기 위해 재현율, 정밀도, F1을 사용한 다음 이를 커버리지와 결합하여 MURGAT-SCORE를 만든다.
자동 평가(MURGAT-SCORE)를 구축하고 WorldSense 및 Video-MMMU 데이터셋의 인간 주석과 대조하여 검증한다.

실험 결과

연구 질문

RQ1MLLM들이 다중 모달리티와 시간 구간에 걸쳐 검증 가능하고 풍부한 인용이 포함된 답을 생성할 수 있는가?
RQ2현재 모델의 근거 제시 및 인용이 다중 모달 추론 과제에서 인간 판단과 얼마나 잘 일치하는가?
RQ3다중 모달 과제에서 추론 깊이, 근거 정확도, 인용 신뢰도 간의 trade-off는 무엇인가?

주요 결과

모델	방법	WorldSense 커버리지	WorldSense 귀속	WorldSense MURGAT-S	WorldSense 정확도	Video-MMMU 커버리지	Video-MMMU 귀속	Video-MMMU MURGAT-S	Video-MMMU 정확도
Gemini-2.5-Flash	+ 인용	81.2	65.4	54.1	66.5	63.0	63.4	41.5	84.9
Gemini-2.5-Flash	+ 사후 귀속	97.4	62.3	60.8	62.3	73.8	44.9	38.0	84.2
Gemini-3-Flash	+ 인용	95.9	66.5	64.4	66.2	88.2	64.5	56.9	86.0
Gemini-3-Flash	+ 사후 귀속	95.1	71.4	69.2	67.0	87.9	47.2	44.1	86.8
Gemini-3-Pro	+ 인용	78.3	64.9	51.7	70.0	63.4	67.3	41.8	86.0
Gemini-3-Pro	+ 사후 귀속	97.0	67.1	65.2	71.4	68.0	43.7	36.9	85.3
Qwen3-Omni-Instruct	+ 인용	47.6	53.3	29.0	54.0	34.6	21.8	9.8	40.0
Qwen3-Omni-Instruct	+ 사후 귀속	99.5	45.7	45.4	57.0	95.1	17.9	17.6	45.0
Qwen3-Omni-Thinking	+ 인용	52.7	56.3	31.3	61.0	36.3	7.6	4.8	51.0
Qwen3-Omni-Thinking	+ 사후 귀속	93.2	60.0	56.3	56.5	76.3	16.8	12.8	53.0
Qwen3-VL-Instruct	+ 인용	39.0	52.0	25.5	48.0	30.2	40.1	17.5	55.0
Qwen3-VL-Instruct	+ 사후 귀속	98.9	70.2	69.4	69.4	93.4	44.6	42.3	53.0
Qwen3-VL-Thinking	+ 인용	38.5	56.1	30.8	49.0	23.2	15.1	7.6	60.0
Qwen3-VL-Thinking	+ 사후 귀속	76.6	58.9	48.2	47.0	54.3	31.5	18.9	51.0
Molmo2	+ 인용	69.1	50.2	39.7	40.0	82.6	21.4	19.3	44.3
Molmo2	+ 사후 귀속	75.0	38.3	33.2	41.0	66.4	15.0	11.4	50.5

강력한 MLLMs는 종종 질문에 정확히 답하지만 인용을 허구로 만들어내거나 충분한 귀속을 제시하지 못한다.
MURGAT-SCORE는 인간 판단과 높은 상관관계를 보이며(엔드-투-엔드 상관의 평균 0.84) LLM-판사 기반의 베이스라인보다 우수하다.
추론 깊이를 높이거나 구조화된 근거 제시를 강제하는 것이 복잡한 과제에서 정확도를 떨어뜨릴 수 있는 트레이드오프가 있다.
프로그래밍식 근거 제시와 확장적 사고는 귀속을 향상시키지만 추론과 검증 가능한 증거를 분리시킬 수 있다.
더 큰 모델은 더 많은 컴퓨트를 통해 근거 제시를 개선하지만, 더 작은 모델은 노력 증가에도 MURGAT-SCORE가 감소하는데, 이는 잠재적 추론이 증거와 분리될 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.