[論文レビュー] As Good As A Coin Toss: Human detection of AI-generated images, videos, audio, and audiovisual stimuli
本研究は、人々が画像、音声、動画、視覚・聴覚フォーマットを横断してAI生成メディアと真正なコンテンツを識別できる程度を測定し、検出はほぼチャンスに近く、精度を低下させる要因がいくつか存在することを示している。
One of the current principal defenses against weaponized synthetic media continues to be the ability of the targeted individual to visually or auditorily recognize AI-generated content when they encounter it. However, as the realism of synthetic media continues to rapidly improve, it is vital to have an accurate understanding of just how susceptible people currently are to potentially being misled by convincing but false AI generated content. We conducted a perceptual study with 1276 participants to assess how capable people were at distinguishing between authentic and synthetic images, audio, video, and audiovisual media. We find that on average, people struggled to distinguish between synthetic and authentic media, with the mean detection performance close to a chance level performance of 50%. We also find that accuracy rates worsen when the stimuli contain any degree of synthetic content, features foreign languages, and the media type is a single modality. People are also less accurate at identifying synthetic images when they feature human faces, and when audiovisual stimuli have heterogeneous authenticity. Finally, we find that higher degrees of prior knowledgeability about synthetic media does not significantly impact detection accuracy rates, but age does, with older individuals performing worse than their younger counterparts. Collectively, these results highlight that it is no longer feasible to rely on the perceptual capabilities of people to protect themselves against the growing threat of weaponized synthetic media, and that the need for alternative countermeasures is more critical than ever before.
研究の動機と目的
- 多様なモダリティ(画像、音声、動画、視覚・聴覚)を横断して、真正なメディアとAI生成メディアを識別する人間の能力を評価する。
- 現実世界に近い合成メディアのシナリオにおける検出精度に影響を与える要因を特定する。
- 検出性能に対する事前知識および人口統計的要因の影響を評価する。
- 知覚能力を超える武器化された合成メディアに対抗する防御戦略を通知する。
提案手法
- AI生成メディアと実メディアの真偽を評価する感覚実験を1276人の参加者で実施し、画像、音声、動画、視覚・聴覚刺激を横断して評価する。
- 内容の合成操作の程度、言語特徴、モダリティによって検出性能(正確さ)がどのように変化するかを分析する。
- 画像中の顔の有無と視覚・聴覚刺激における真偽の不均一性が精度に与える影響を検討する。
- 合成メディアに関する事前知識と参加者の年齢が検出性能に与える影響を調査する。
実験結果
リサーチクエスチョン
- RQ1画像、音声、動画、視覚・聴覚フォーマット全体で、AI生成メディアと真正なメディアを人はどれだけ正確に識別できるか?
- RQ2検出精度に影響を与える要因は何か(合成操作の程度、言語、モダリティ、顔の有無、真偽の不均質性)?
- RQ3合成メディアに関する事前知識は検出を改善するか?年齢は性能にどう影響するか?
主な発見
- 平均的な検出性能はメディアタイプを問わずほぼ偶然の範囲(約50%)である。
- 刺激に合成コンテンツが少しでも含まれる場合、外国語が特徴として現れる場合、またはメディアタイプが単一モダリティである場合、精度は低下する。
- 人間の顔を特徴とする合成画像の識別は精度が低い。
- 真偽の不均一性を含む視覚・聴覚刺激は検出精度を低下させる。
- 合成メディアに関する事前知識が高いことは精度を有意に改善せず、むしろ年齢が高い参加者は若年層より成績が劣る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。