[논문 리뷰] AMMeBa: A Large-Scale Survey and Dataset of Media-Based Misinformation In-The-Wild
AMMeBa는 ClaimReview 사실확인을 사용하여 이미지 및 미디어 관련 주장에 초점을 맞춘 야생의 미디어 기반 오정보에 대한 2년간의 인간 주석 연구를 제시하고, 미디어 유형 및 조작 방법을 설명하는 주석의 공개 데이터세트를 제공한다.
The prevalence and harms of online misinformation is a perennial concern for internet platforms, institutions and society at large. Over time, information shared online has become more media-heavy and misinformation has readily adapted to these new modalities. The rise of generative AI-based tools, which provide widely-accessible methods for synthesizing realistic audio, images, video and human-like text, have amplified these concerns. Despite intense public interest and significant press coverage, quantitative information on the prevalence and modality of media-based misinformation remains scarce. Here, we present the results of a two-year study using human raters to annotate online media-based misinformation, mostly focusing on images, based on claims assessed in a large sample of publicly-accessible fact checks with the ClaimReview markup. We present an image typology, designed to capture aspects of the image and manipulation relevant to the image's role in the misinformation claim. We visualize the distribution of these types over time. We show the rise of generative AI-based content in misinformation claims, and that its commonality is a relatively recent phenomenon, occurring significantly after heavy press coverage. We also show "simple" methods dominated historically, particularly context manipulations, and continued to hold a majority as of the end of data collection in November 2023. The dataset, Annotated Misinformation, Media-Based (AMMeBa), is publicly-available, and we hope that these data will serve as both a means of evaluating mitigation methods in a realistic setting and as a first-of-its-kind census of the types and modalities of online misinformation.
연구 동기 및 목표
- 공개적으로 이용 가능한 ClaimReview 표기로 확인된 사실 확인을 사용하여 야생에서의 미디어 기반 오정보의 유병률 및 양상을 정량화한다.
- 오정보의 효과성과 완화와 관련된 미디어 특성을 포착하기 위해 이미지 중심의 유형학을 개발한다.
- 완화 방법의 평가 및 향후 연구를 지원하기 위해 주석이 달린 오정보 주장의 공개 접근 가능 데이터세트를 제공한다.
제안 방법
- ClaimReview 표기를 가진 공공 사실 확인에서 샘플링된 오정보 주장(주석이 달린 주장 135,838개).
- 주석자는 매체 유형(이미지, 비디오, 오디오)과 조작 유형(콘텐츠, 맥락, 텍스트 기반, 가짜 문서)으로 미디어 기반 주장을 분류했다.
- 이미지는 하위 유형(기본, 복합, 스크린샷, 아날로그 간극, 자체 맥락화, 텍스트 기반, 가짜 문서)으로 분류되었고 콘텐츠, 맥락 또는 텍스트 기반 방법으로 조작되었다.
- 인지 부하를 관리하기 위한 단계 기반 주석 워크플로; 점진적으로 세분화가 증가하는 네 단계와 웹 기반 주석 인터페이스.
- 평가자(83명)가 장기간 참여했으며, 맥락 정확도 향상을 위한 교육 및 지역화가 이루어졌다.

실험 결과
연구 질문
- RQ1다국어 대규모 사실 확인 코퍼스에서 야생의 미디어 기반 오정보의 유병률과 시간적 분포는 무엇인가?
- RQ2실제 주장에 있어 이미지 기반 오정보를 특징짓는 유형학과 조작 범주는 무엇인가?
- RQ3오정보 주장에서 AI 생성 미디어의 사용은 어떻게 진전해 왔으며, 시간이 지남에 따라 지배적인 매체 유형과 조작 유형은 무엇인가?
- RQ4다양하게 주석된 미디어 기반 오정보 데이터세트가 현실적 환경에서 완화 방법의 평가를 어떻게 지원할 수 있는가?
주요 결과
- 미디어 기반 오정보 주장은 분석된 사례의 대다수에 해당하며 약 80%에 달한다.
- 이미지는 역사적으로 오정보 주장에 주도적이었으나 2022년부터 비디오가 더 흔해졌고 현재 미디어 관련 주장 중 60% 이상에 참여한다.
- AI 생성 콘텐츠는 2023년 봄 이전에는 드물었으나 사실확인 오정보 주장에서는 이후 급격히 증가했다.
- 이미지 조작은 종종 단순하고 맥락 기반이었으며, 맥락 조작은 종종 이미지의 출처나 묘사에 대해 거짓 세부 정보를 제공했다.
- 텍스트가 이미지에 자주 존재하며 오정보 주장을 서술하고, 텍스트 기반 이미지는 뚜렷한 조작 범주를 구성한다.
- 주석이 달린 AMMeBa 데이터세트는 연구용으로 Kaggle에서 공개된다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.