[논문 리뷰] VeriTaS: The First Dynamic Benchmark for Multimodal Automated Fact-Checking
VeriTaS는 데이터 누수에 저항하는 해제된, 불확실성 인식 점수 및 텍스트 정당화를 사용한 실제 세계 다언어 주장으로 구성된 분기별 업데이트가 가능한 다중모달 자동 팩트체크 벤치마크를 도입합니다.
The growing scale of online misinformation urgently demands Automated Fact-Checking (AFC). Existing benchmarks for evaluating AFC systems, however, are largely limited in terms of task scope, modalities, domain, language diversity, realism, or coverage of misinformation types. Critically, they are static, thus subject to data leakage as their claims enter the pretraining corpora of LLMs. As a result, benchmark performance no longer reliably reflects the actual ability to verify claims. We introduce Verified Theses and Statements (VeriTaS), the first dynamic benchmark for multimodal AFC, designed to remain robust under ongoing large-scale pretraining of foundation models. VeriTaS currently comprises 24,000 real-world claims from 108 professional fact-checking organizations across 54 languages, covering textual and audiovisual content. Claims are added quarterly via a fully automated seven-stage pipeline that normalizes claim formulation, retrieves original media, and maps heterogeneous expert verdicts to a novel, standardized, and disentangled scoring scheme with textual justifications. Through human evaluation, we demonstrate that the automated annotations closely match human judgments. We commit to update VeriTaS in the future, establishing a leakage-resistant benchmark, supporting meaningful AFC evaluation in the era of rapidly evolving foundation models. We will make the code and data publicly available.
연구 동기 및 목표
- 정적 AFC 벤치마크의 누수 문제를 동적이고 누수에 강한 평가 플랫폼으로 제공함으로써 해결한다.
- 다언어 커버리지와 전문가-참여 진실 판단으로 다중모달(텍스트, 이미지, 비디오) 주장 제공한다.
- 미디어와 진실 특성을 분리한 정밀하고 불확실성 인식 점수 체계를 제공한다.
- 2028년까지 분기 업데이트를 가능하게 하는 일곱 단계 파이프라인을 통해 데이터 수집 및 주석 생성을 자동화한다.
- 현재 VeriTaS 데이터에서 최첨단 다중모달 LLM의 기초 성능 격차를 보여준다.
제안 방법
- ClaimReview에서 주장 구성 및 주석 작성을 자동으로 수행하는 일곱 단계 파이프라인: 발견, 게시자 확인, 기사 스크랩, 미디어 등장 retrieval, 주장 정규화, 판정 표준화, 정정.
- 추출, 재작성 및 정당화 생성을 위해 GPT-5 계열 및 Gemini 계열의 LLM을 few-shot 및 chain-of-thought 프롬프트와 함께 사용.
- 판정을 다섯 가지 속성(Media Authenticity, Media Contextualization, Veracity, Context Coverage, Integrity)으로 -1에서 1의 척도로 분리.
- 네 개의 LLM을 앙상블하여 예측을 집계하고 다중 주석자 정당화를 제공.
- 자동 주석을 인간 판단과 MSE/MAE 지표로 검증.
- 최근 AFC 시스템(다중모달 LLM 및 AFC 베이스라인)을 최신 VeriTaS 분할에서 벤치마킹하고 지식 컷오프 효과를 분석합니다.
실험 결과
연구 질문
- RQ1동적이고 분기별 업데이트되는 벤치마크가 기초 모델의 지속적 사전학습에 대해 강인함을 유지할 수 있는가?
- RQ2실세계의 다언어 다중모달 주장과 분리된 점수 및 정당화가 평가의 현실성과 신뢰성을 향상시키는가?
- RQ3 VeriTaS에서 현재 다중모달 LLM과 검증 작업 간의 성능 격차는 어떠하며, 특히 지식 컷오프 날짜 이후에 어떻게 변하는가?
- RQ4불확실성 인식의 등급화된 판정 속성이 인간의 주장 무결성 판단과 어떤 상관관계를 보이는가?
- RQ5누출 저항형 AFC 벤치마크를 유지하기 위한 실질적인 계산 및 윤리적 고려사항은 무엇인가?
주요 결과
| 방법 | MSE (↓) | MAE (↓) | 정확도 (↑) | 비고 |
|---|---|---|---|---|
| Gemini 2.0 Flash | - | 0.74 | 0.71 | 32.1 |
| Gemini 2.5 Flash | - | 0.85 | 0.57 | 65.9 |
| Gemini 3 Pro | - | 0.55 | 0.37 | 81.9 |
| GPT-4o | - | 0.65 | 0.65 | 36.9 |
| GPT-5.2 | - | 0.70 | 0.69 | 33.5 |
| Llama 4 Maverick | - | 0.97 | 0.74 | 41.8 |
| Gemini 2.0 Flash | ✓ | 0.73 | 0.57 | 58.0 |
| Gemini 2.5 Flash | ✓ | 0.68 | 0.48 | 71.2 |
| Gemini 3 Pro | ✓ | 0.39 | 0.35 | 74.6 |
| GPT-4o | ✓ | 0.65 | 0.50 | 64.2 |
| GPT-5.2 | ✓ | 0.45 | 0.40 | 70.6 |
| Llama 4 Maverick | ✓ | 1.04 | 0.72 | 49.6 |
| DEFAME (w/ GPT-5.2 ) | ✓ | 0.55 | 0.49 | 60.4 |
| Loki (w/ GPT-5.2 ) | ✓ | 0.86 | 0.59 | 61.8 |
- VeriTaS는 54개 언어에 걸쳐 이미지 및 비디오를 포함한 24,000개의 실세계 주장을 분기별로 업데이트합니다.
- 사람의 평가에 비해 자동 주석이 인간 판단과 근접하게 일치하는 것으로 나타났으며(MSE ≤ 0.04).
- 기초 다중모달 LLM은 현재 VeriTaS 데이터에서 개선 여지가 큰 것으로 나타났으며, 어떤 모델도 거의 완벽한 성능에 도달하지 못했습니다.
- 지식 컷오프 효과가 연속 분할에서 모델의 MSE를 크게 감소시키며, 정적 벤치마크의 누수를 시사합니다.
- 평가된 모든 모델 중 Retrieval이 포함된 Gemini 3 Pro가 베이스라인 중 최저 MSE(0.39)를 기록했으나 이상적 수준과는 여전히 거리에 있습니다.
- 롱스팬과 동적 설계는 데이터 누출을 줄이고 2028년까지 현실적이고 지속적인 평가 프레임워크를 제공합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.