Skip to main content
QUICK REVIEW

[논문 리뷰] As Good As A Coin Toss: Human detection of AI-generated images, videos, audio, and audiovisual stimuli

Di Cooke, Abigail Edwards|arXiv (Cornell University)|2024. 03. 25.
Ethics and Social Impacts of AI인용 수 5
한 줄 요약

연구는 이미지, 오디오, 비디오, 시청각 형식 전반에서 AI 생성 미디어와 실제 콘텐츠를 구분하는 사람의 능력을 측정하고, 탐지 정확도가 거의 우연에 가까우며 정확도를 감소시키는 여러 요인을 발견했다.

ABSTRACT

One of the current principal defenses against weaponized synthetic media continues to be the ability of the targeted individual to visually or auditorily recognize AI-generated content when they encounter it. However, as the realism of synthetic media continues to rapidly improve, it is vital to have an accurate understanding of just how susceptible people currently are to potentially being misled by convincing but false AI generated content. We conducted a perceptual study with 1276 participants to assess how capable people were at distinguishing between authentic and synthetic images, audio, video, and audiovisual media. We find that on average, people struggled to distinguish between synthetic and authentic media, with the mean detection performance close to a chance level performance of 50%. We also find that accuracy rates worsen when the stimuli contain any degree of synthetic content, features foreign languages, and the media type is a single modality. People are also less accurate at identifying synthetic images when they feature human faces, and when audiovisual stimuli have heterogeneous authenticity. Finally, we find that higher degrees of prior knowledgeability about synthetic media does not significantly impact detection accuracy rates, but age does, with older individuals performing worse than their younger counterparts. Collectively, these results highlight that it is no longer feasible to rely on the perceptual capabilities of people to protect themselves against the growing threat of weaponized synthetic media, and that the need for alternative countermeasures is more critical than ever before.

연구 동기 및 목표

  • 다중 모달리티(이미지, 오디오, 비디오, 시청각)에서 authentic vs AI-generated 미디어를 구분하는 인간 능력 평가.
  • 실제 세계에 준하는 합성 미디어 시나리오에서 탐지 정확도에 영향을 주는 요인 식별.
  • 합성 미디어에 대한 사전 지식 및 인구통계적 요인이 탐지 성능에 미치는 영향 평가.
  • 지각 능력을 넘어선 무기화된 합성 미디어에 대한 방어 전략 고안.

제안 방법

  • 이미지, 오디오, 비디오, 시청각 자극에 걸쳐 AI 생성 vs 실제 미디어의 진위 여부를 평가하는 1276명 참가자 대상 지각 연구 수행.
  • 콘텐츠의 합성 조작 정도, 언어 특성, 형식에 따라 탐지 성능(정확도)과 변화 분석.
  • 이미지의 얼굴 콘텐츠와 시청각 자극의 진위의 이질성이 정확도에 어떤 영향을 미치는지 검토.
  • 참가자 연령 및 합성 미디어에 대한 사전 지식이 탐지 성능에 미치는 영향 조사.

실험 결과

연구 질문

  • RQ1사람들은 이미지, 오디오, 비디오, 시청각 형식에서 AI 생성 미디어를 실제 미디어와 얼마나 정확하게 구분할 수 있는가?
  • RQ2탐지 정확도에 영향을 미치는 요인들(합성 조작의 콘텐츠 정도, 언어, 형식, 얼굴 콘텐츠, 이질성)은 무엇인가?
  • RQ3합성 미디어에 대한 사전 지식이 탐지에 도움이 되는가, 그리고 연령은 성능에 어떤 영향을 미치는가?

주요 결과

  • 평균 탐지 성능은 모든 매체 유형에서 거의 우연에 가까움(약 50%).
  • 자극에 어느 정도의 합성 콘텐츠가 포함되거나 이질적인 언어가 나타나거나 미디어 유형이 단일 모달리티인 경우 정확도가 떨어짐.
  • 사람들이 인간 얼굴이 포함된 합성 이미지를 식별하는 데 더 덜 정확함.
  • 이질적인 진위를 가진 시청각 자극은 탐지 정확도를 감소시킴.
  • 합성 미디어에 대한 사전 지식이 정확도를 크게 향상시키지 않으며, 반면 연령이 높은 참가자는 더 낮은 성능을 보임.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.