[논문 리뷰] Agentic Mixed-Source Multi-Modal Misinformation Detection with Adaptive Test-Time Scaling
에이전트M 3 D는 적응적 테스트 시점 스케일링과 비판 인식 Best-of-N 추론을 도입하여 제로샷 설정에서 혼합 소스 다중 모달 허위정보를 탐지하는 다에이전트 프레임워크를 제시하고, 효율적 추론으로 최첨단 성능을 달성합니다.
Vision-language models (VLMs) have been proven effective for detecting multi-modal misinformation on social platforms, especially in zero-shot settings with unavailable or delayed annotations. However, a single VLM's capacity falls short in the more complex mixed-source multi-modal misinformation detection (M3D) task. Taking captioned images as an example, in M3D, false information can originate from untruthful texts, forged images, or mismatches between the two modalities. Although recent agentic systems can handle zero-shot M3D by connecting modality-specific VLM agents, their effectiveness is still bottlenecked by their architecture. In existing agentic M3D solutions, for any input sample, each agent performs only one forward reasoning pass, making decisions prone to model randomness and reasoning errors in challenging cases. Moreover, the lack of exploration over alternative reasoning paths prevents modern VLMs from fully utilizing their reasoning capacity. In this work, we present AgentM3D, a multi-agent framework for zero-shot M3D. To amplify the reasoning capability of VLMs, we introduce an adaptive test-time scaling paradigm in which each modality-specific VLM agent applies a Best-of-N mechanism, coupled with a critic agent for task-aligned scoring. The agents are organized in a cascading, modality-specific decision chain to reduce unnecessary computation and limit error propagation. To ensure scalability, a planning agent dynamically determines the maximum number of reasoning paths based on sample difficulty, and an adaptive stopping mechanism prevents excessive reasoning within each agent. Extensive experiments on two M3D benchmarks demonstrate that AgentM3D achieves state-of-the-art zero-shot detection performance compared with various VLM-based and agentic baselines.
연구 동기 및 목표
- 텍스트, 이미지, 교차 모달 신호가 독립적으로 왜곡될 수 있는 M3D를 견고하게 탐지하는 동기를 부여한다.
- 오류 전파를 줄이기 위해 모달리티별 탐지 에이전트의 계층적 캐스케이드를 제안한다.
- 정확도와 효율성의 균형을 맞추는 adaptive test-time scaling(비판 인식 랭킹이 있는 Best-of-N) 및 계획 모듈을 도입한다.
- 보상 모델과 모달리티별 비판 신호를 통해 작업에 맞춘 점수 체계를 제공한다.
- 향상된 제로샷 성능을 개선된 효율성과 함께 M3D 벤치마크에서 시연한다.
제안 방법
- 세 가지 모달리티별 탐지 에이전트(텍스트 진실성, 시각 진실성, 교차 모달 일관성)가 계층적 캐스케이드로 구성된다.
- 각 에이전트에 대해 비판 인식 랭킹을 갖춘 Best-of-N 추론을 사용하여 여러 추론 경로를 탐색하고 융합된 점수가 선택을 안내한다.
- 계획 에이전트가 강화된 추론을 활성화할지 동적으로 결정하여 적응적 테스트 시점 스케일링을 가능하게 한다.
- 모달리티별 도구의 비판 신호(logic consistency, image forgery detectors)가 보상 신호와 함께 후보 순위를 알려준다.
- 상위 후보가 충분히 구분되면 계산 비용을 줄이기 위한 적응적 top-m 조기 종료를 사용한다.
- 에이전트 추론을 사후 분포와 유사한 분포에 연결하는 확률적 해석과 보상 및 비판을 결합한 점수 함수를 제시한다.

실험 결과
연구 질문
- RQ1에이전트M 3 D는 높은 VLM 기반 벤치마크 및 에이전트 기반 방법과 비교하여 제로샷 M3D에서 어떻게 성능을 보이나?
- RQ2적응적 테스트 시점 스케일링이 기존 방법보다 정확도와 추론 효율성을 더 잘 균형 잡아 주나?
- RQ3적응형 BoN 추론과 비판 신호가 탐지 성능에 어떤 기여를 하는가?
- RQ4계획자와 조기 종료 메커니즘이 비용과 신뢰도에 어떤 영향을 주나?
- RQ5하이퍼파라미터가 성능과 효율성에 미치는 영향은 무엇인가?
주요 결과
| Backbone Method | MMFakeBench Acc | MMFakeBench F1 | MMFakeBench Rec | MMFakeBench Pre | Combined Acc | Combined F1 | Combined Rec | Combined Pre |
|---|---|---|---|---|---|---|---|---|
| Qwen3-VL-4B Standard | 42.9 | 29.2 | 35.8 | 35.8 | 30.3 | 23.6 | 31.0 | 42.3 |
| Qwen3-VL-4B BoN | 43.7 | 31.1 | 36.4 | 47.9 | 28.2 | 21.9 | 29.5 | 40.5 |
| Qwen3-VL-4B T2 Agent | 50.1 | 50.3 | 49.4 | 54.6 | 35.4 | 35.6 | 38.2 | 45.7 |
| Qwen3-VL-4B MMD-Agent | 55.2 | 55.4 | 55.8 | 57.1 | 41.9 | 40.9 | 44.1 | 48.5 |
| Qwen3-VL-4B MMD-Agent+BoN | 57.4 | 57.8 | 58.6 | 58.5 | 40.6 | 39.7 | 42.7 | 48.6 |
| Qwen3-VL-4B AgentM3D (Ours) | 58.1 | 58.0 | 60.0 | 57.1 | 45.4 | 45.6 | 47.3 | 49.0 |
| Qwen3-VL-8B Standard | 46.9 | 37.0 | 39.4 | 59.9 | 33.6 | 28.9 | 36.0 | 40.6 |
| Qwen3-VL-8B BoN | 45.7 | 35.6 | 38.4 | 62.5 | 33.6 | 28.4 | 36.3 | 42.9 |
| Qwen3-VL-8B T2 Agent | 54.3 | 54.0 | 52.0 | 61.3 | 36.2 | 36.1 | 38.8 | 45.5 |
| Qwen3-VL-8B MMD-Agent | 59.4 | 60.2 | 60.3 | 62.5 | 43.3 | 43.5 | 45.2 | 50.5 |
| Qwen3-VL-8B MMD-Agent+BoN | 60.1 | 60.7 | 60.4 | 62.9 | 42.3 | 42.6 | 44.3 | 48.7 |
| Qwen3-VL-8B AgentM3D (Ours) | 62.0 | 62.6 | 64.2 | 62.1 | 48.1 | 48.3 | 50.5 | 52.4 |
- 에이전트M 3 D는 VLM 기반 및 에이전트 기반 벤치마크와 비교하여 MMFakeBench 및 Combined 벤치마크에서 가장 강력한 성능을 달성한다.
- 적응형 계획은 MMFakeBench의 약 69.1%, Combined 샘플의 약 77.2%에 대해 BoN 추론을 트리거하여 효율적이면서도 효과적인 추론을 가능하게 한다.
- 비판 인식 BoN은 순진한 BoN이나 단일 패스 추론이 실패하는 경우에도 안정성과 정확성을 향상시킨다.
- 에이전트M 3 D는 중간 수준의 지연 증가와 함께 더 높은 정확도를 달성하여 정확도-지연 균형이 우수한 편이다.
- Qwen3-VL-4B-Instruct에서 에이전트M 3 D는 MMFakeBench에서 Acc 58.1( MMFakeBench) 및 45.4(Combined)로 여러 지표에서 더 높은 F1/재현율/정밀도를 달성하며, Qwen3-VL-8B-Instruct에서 Acc 62.0( MMFakeBench) 및 48.1(Combined)을 달성한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.