Skip to main content
QUICK REVIEW

[論文レビュー] Agentic Mixed-Source Multi-Modal Misinformation Detection with Adaptive Test-Time Scaling

Wei Jiang, Tong Chen|arXiv (Cornell University)|Mar 3, 2026
Misinformation and Its Impacts被引用数 0
ひとこと要約

AgentM 3 Dは、混在ソースの多模態誤情報をゼロショット設定で検出するための適応的テスト時スケーリングと批評を意識したBest-of-N推論を備えたマルチエージェントフレームワークを導入し、効率的な推論で最先端の結果を達成します。

ABSTRACT

Vision-language models (VLMs) have been proven effective for detecting multi-modal misinformation on social platforms, especially in zero-shot settings with unavailable or delayed annotations. However, a single VLM's capacity falls short in the more complex mixed-source multi-modal misinformation detection (M3D) task. Taking captioned images as an example, in M3D, false information can originate from untruthful texts, forged images, or mismatches between the two modalities. Although recent agentic systems can handle zero-shot M3D by connecting modality-specific VLM agents, their effectiveness is still bottlenecked by their architecture. In existing agentic M3D solutions, for any input sample, each agent performs only one forward reasoning pass, making decisions prone to model randomness and reasoning errors in challenging cases. Moreover, the lack of exploration over alternative reasoning paths prevents modern VLMs from fully utilizing their reasoning capacity. In this work, we present AgentM3D, a multi-agent framework for zero-shot M3D. To amplify the reasoning capability of VLMs, we introduce an adaptive test-time scaling paradigm in which each modality-specific VLM agent applies a Best-of-N mechanism, coupled with a critic agent for task-aligned scoring. The agents are organized in a cascading, modality-specific decision chain to reduce unnecessary computation and limit error propagation. To ensure scalability, a planning agent dynamically determines the maximum number of reasoning paths based on sample difficulty, and an adaptive stopping mechanism prevents excessive reasoning within each agent. Extensive experiments on two M3D benchmarks demonstrate that AgentM3D achieves state-of-the-art zero-shot detection performance compared with various VLM-based and agentic baselines.

研究の動機と目的

  • テキスト、画像、クロスモーダル信号が独立して歪められる可能性があるM3Dに対して、混在する多模態誤情報の頑健な検出を動機づける。
  • 誤検知の連鎖を減らすため、モダリティ固有検出エージェントの階層的カスケードを提案する。
  • 精度と効率のバランスを取るための適応的テスト時スケーリング(批評意識付きBest-of-N rankingを含む)と計画モジュールを導入する。
  • タスクに合わせた報酬モデルとモダリティ固有の批評シグナルを介したスコアリングを提供する。
  • M3Dベンチマークにおいて、改善された効率で最先端のゼロショット性能を示す。

提案手法

  • 三つのモダリティ固有検出エージェント(テキスト妥当性、ビジュアル妥当性、クロスモーダル整合性)を階層的カスケードに組織する。
  • 各エージェントの複数の推論経路を探索するために、批評意識付きBoN推論を用い、結合スコアが選択を導く。
  • 計画エージェントが強化推論を活性化するタイミングを動的に決定し、適応的なテスト時スケーリングを実現する。
  • モダリティ固有ツール(論理整合性、画像偽造検出器)からの批評信号と報酬信号を伴わせて候補のランキングを通知する。
  • 適応的なTop-m早期停止によって、上位候補が十分に区別される時点で計算を停止し、計算量を削減する。
  • 正式な確率的解釈を用いてエージェント推論を後部分布のような分布に結びつけ、報酬と批評を組み合わせたスコアリング関数と結びつける。
Figure 1 . Comparison between single-source and mixed-source multi-modal misinformation detection.
Figure 1 . Comparison between single-source and mixed-source multi-modal misinformation detection.

実験結果

リサーチクエスチョン

  • RQ1AgentM 3 Dは、ゼロショットM3Dに対して強力なVLMベースのベースラインやエージェント的手法と比較してどう機能するか?
  • RQ2適応的なテスト時スケーリングは、従来のアプローチよりも精度と推論効率のバランスを良く取れるか?
  • RQ3適応BoN推論と批評信号が検出性能にどの程度寄与するか?
  • RQ4プランナーと早期停止機構はコストと信頼性にどのように影響するか?
  • RQ5ハイパーパラメータが性能と効率に与える影響はどの程度か?

主な発見

Backbone MethodMMFakeBench AccMMFakeBench F1MMFakeBench RecMMFakeBench PreCombined AccCombined F1Combined RecCombined Pre
Qwen3-VL-4B Standard42.929.235.835.830.323.631.042.3
Qwen3-VL-4B BoN43.731.136.447.928.221.929.540.5
Qwen3-VL-4B T2 Agent50.150.349.454.635.435.638.245.7
Qwen3-VL-4B MMD-Agent55.255.455.857.141.940.944.148.5
Qwen3-VL-4B MMD-Agent+BoN57.457.858.658.540.639.742.748.6
Qwen3-VL-4B AgentM3D (Ours)58.158.060.057.145.445.647.349.0
Qwen3-VL-8B Standard46.937.039.459.933.628.936.040.6
Qwen3-VL-8B BoN45.735.638.462.533.628.436.342.9
Qwen3-VL-8B T2 Agent54.354.052.061.336.236.138.845.5
Qwen3-VL-8B MMD-Agent59.460.260.362.543.343.545.250.5
Qwen3-VL-8B MMD-Agent+BoN60.160.760.462.942.342.644.348.7
Qwen3-VL-8B AgentM3D (Ours)62.062.664.262.148.148.350.552.4
  • AgentM 3 Dは、VLMベースおよびエージェント系ベースラインと比較してMMFakeBenchおよびCombinedベンチマークの中で最も強い性能を示す。
  • 適応計画はMMFakeBenchの約69.1%、Combinedの約77.2%のサンプルでBoN推論をトリガーし、効率的でありながら効果的な推論を実現する。
  • 批評意識付きBoNは、単純なBoNや単一パス推論が失敗する場面で安定性と精度を向上させる。
  • AgentM 3 Dは中程度の遅延増加でより高い精度を達成し、精度—遅延の有利なトレードオフを提供する。
  • Qwen3-VL-4B-InstructではAgentM 3 DがMMFakeBenchでAcc 58.1、Combinedで45.4を達成し、複数の指標でF1/Recall/Precisionが高い。Qwen3-VL-8B-InstructではAcc 62.0(MMFakeBench)、48.1(Combined)。
Figure 2 . The overall structure of AgentM 3 D. A planning agent routes each input to either standard reasoning or critique-aware Best-of- $N$ reasoning. The latter explores multiple reasoning trajectories, integrates reward and critique signals for candidate selection, and applies adaptive early-st
Figure 2 . The overall structure of AgentM 3 D. A planning agent routes each input to either standard reasoning or critique-aware Best-of- $N$ reasoning. The latter explores multiple reasoning trajectories, integrates reward and critique signals for candidate selection, and applies adaptive early-st

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。