[論文レビュー] VeriTaS: The First Dynamic Benchmark for Multimodal Automated Fact-Checking
VeriTaSは、実世界の多言語クレームを用いた、データリークに抵抗する分離化された不確実性対応スコアリングとテキスト妥当性説明を備えた、四半期更新の動的ベンチマークを多模態自動事実検証に提供する。
The growing scale of online misinformation urgently demands Automated Fact-Checking (AFC). Existing benchmarks for evaluating AFC systems, however, are largely limited in terms of task scope, modalities, domain, language diversity, realism, or coverage of misinformation types. Critically, they are static, thus subject to data leakage as their claims enter the pretraining corpora of LLMs. As a result, benchmark performance no longer reliably reflects the actual ability to verify claims. We introduce Verified Theses and Statements (VeriTaS), the first dynamic benchmark for multimodal AFC, designed to remain robust under ongoing large-scale pretraining of foundation models. VeriTaS currently comprises 24,000 real-world claims from 108 professional fact-checking organizations across 54 languages, covering textual and audiovisual content. Claims are added quarterly via a fully automated seven-stage pipeline that normalizes claim formulation, retrieves original media, and maps heterogeneous expert verdicts to a novel, standardized, and disentangled scoring scheme with textual justifications. Through human evaluation, we demonstrate that the automated annotations closely match human judgments. We commit to update VeriTaS in the future, establishing a leakage-resistant benchmark, supporting meaningful AFC evaluation in the era of rapidly evolving foundation models. We will make the code and data publicly available.
研究の動機と目的
- 静的 AFC ベンチマークのリーク問題を回避する動的でリーク耐性の評価プラットフォームを提供する。
- 実世界の多言模態(テキスト、画像、動画)クレームを多言語で提供し、専門家による真偽判定を提供する。
- メディアおよび真偽特性を分離した、細粒度で不確実性を考慮したスコアリング方式を提供する。
- 四半期更新を可能にする七段階のパイプラインによるデータ収集とアノテーションの自動化(2028年まで)
- 最新の VeriTaS データに対する最先端の多模態 LLMs のベースライン性能ギャップを実証する。
提案手法
- ClaimReview からクレームを構築・アノテーションする七段階の自動化パイプライン:発見、出版元検証、記事スクレイピング、メディア出現の取得、クレーム正規化、判定標準化、是正。
- 抽出・書換え・妥当性生成に GPT-5 ファミリーおよび Gemini ファミリーの LLMs を、few-shot かつ chain-of-thought 提示で用いる。
- 判定を五つの特性(Media Authenticity、Media Contextualization、Veracity、Context Coverage、Integrity)に分離し、-1 から 1 のスケールで評価する。
- 予測をアンサンブルして多様なアノテータの妥当性を提供する。
- 自動アノテーションと人間の判断を MSE/MAE 指標で検証する。
- 最新の VeriTaS の分割で最近の AFC システム(多模態 LLMs および AFC ベースライン)をベンチマークし、知識カットオフ効果を解析する。
実験結果
リサーチクエスチョン
- RQ1動的で四半期更新されるベンチマークは、基盤モデルの継続的事前学習に対して頑健性を維持できるか。
- RQ2実世界で多言語・多模態のクレームと分離化されたスコアリング・妥当性説明は、評価の現実性と信頼性を向上させるか。
- RQ3 VeriTaS 上で現在の多模態 LLM と検証タスクの性能ギャップはどの程度か(特に知識カットオフ日以降)。
- RQ4不確実性を考慮した階層的な判定特性は、人間のクレーム完全性判断とどの程度相関するか。
- RQ5リーク耐性の AFC ベンチマークを維持する際の実用的な計算・倫理的配慮は何か。
主な発見
| Method | MSE (↓) | MAE (↓) | Acc. (↑) | Notes |
|---|---|---|---|---|
| Gemini 2.0 Flash | - | 0.74 | 0.71 | 32.1 |
| Gemini 2.5 Flash | - | 0.85 | 0.57 | 65.9 |
| Gemini 3 Pro | - | 0.55 | 0.37 | 81.9 |
| GPT-4o | - | 0.65 | 0.65 | 36.9 |
| GPT-5.2 | - | 0.70 | 0.69 | 33.5 |
| Llama 4 Maverick | - | 0.97 | 0.74 | 41.8 |
| Gemini 2.0 Flash | ✓ | 0.73 | 0.57 | 58.0 |
| Gemini 2.5 Flash | ✓ | 0.68 | 0.48 | 71.2 |
| Gemini 3 Pro | ✓ | 0.39 | 0.35 | 74.6 |
| GPT-4o | ✓ | 0.65 | 0.50 | 64.2 |
| GPT-5.2 | ✓ | 0.45 | 0.40 | 70.6 |
| Llama 4 Maverick | ✓ | 1.04 | 0.72 | 49.6 |
| DEFAME (w/ GPT-5.2 ) | ✓ | 0.55 | 0.49 | 60.4 |
| Loki (w/ GPT-5.2 ) | ✓ | 0.86 | 0.59 | 61.8 |
- VeriTaS は 54 言語にまたがる実世界のクレーム 24,000 件を含み、画像と動画を提供、四半期ごとに更新される。
- 人間による評価は自動アノテーションが人間の判断に密接に一致することを示す(MSE ≤ 0.04)。
- ベースラインの多模態 LLM は現在の VeriTaS データで大幅な改善余地を示し、完璧に近い性能のモデルは存在しない。
- 知識カットオフ効果は長期的な分割でモデルの MSE を著しく低下させ、静的ベンチマークにリークがあることを示唆する。
- 評価済みモデル全体では Gemini 3 Pro with retrieval がベースラインの中で最も良い MSE(0.39)を示すが、理想にはほど遠い。
- 長期的かつ動的な設計はデータリークを低減し、2028年までの現実的な継続評価フレームワークを提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。