[論文レビュー] COSMOS: Catching Out-of-Context Misinformation with Self-Supervised Learning
本論文では、画像内の特定の物体にテキスト的主張を対応付けることで、文脈外の画像・テキストペアを検出する自己教師あり手法COSMOSを提案する。明示的な文脈外アノテーションを必要とせず、85%の検出精度を達成する。この手法は、キャプション付き画像における対照的学習を活用して、選択的で正確な画像・テキストの整合性を学習し、視覚的コンテンツが変更されていなくても誤った画像使用を正確に特定可能である。
Despite the recent attention to DeepFakes, one of the most prevalent ways to mislead audiences on social media is the use of unaltered images in a new but false context. To address these challenges and support fact-checkers, we propose a new method that automatically detects out-of-context image and text pairs. Our key insight is to leverage the grounding of image with text to distinguish out-of-context scenarios that cannot be disambiguated with language alone. We propose a self-supervised training strategy where we only need a set of captioned images. At train time, our method learns to selectively align individual objects in an image with textual claims, without explicit supervision. At test time, we check if both captions correspond to the same object(s) in the image but are semantically different, which allows us to make fairly accurate out-of-context predictions. Our method achieves 85% out-of-context detection accuracy. To facilitate benchmarking of this task, we create a large-scale dataset of 200K images with 450K textual captions from a variety of news websites, blogs, and social media posts. The dataset and source code is publicly available at https://shivangi-aneja.github.io/projects/cosmos/.
研究の動機と目的
- ソーシャルメディアやニュースにおける、変更のない画像が誤ったまたは誤解を招くキャプションとペairedされる文脈外の画像誤用の増加という課題に対処すること。
- 文脈外ペアの手動アノテーションに依存せずに、このような誤用を自動で検出する手法を開発すること。
- 視覚的グランドイングを通じて画像・テキストの不整合を機械支援で検出可能にすることで、事実確認の効率を向上させること。
- 今後の研究を支援するための、大規模な文脈外画像検出ベンチマークデータセットを構築すること。
- 特定の画像内オブジェクトにキャプションを対応付けることが、正確な検出に不可欠であることを示すこと。言語のみのアプローチを上回ること。
提案手法
- 同じ画像からのマッチド画像・テキストペア(正例)と、他の画像からのランダムなキャプション(負例)を対照的に扱う自己教師あり対照的学習戦略を採用する。
- 視覚言語モデルが関連する画像領域に注目することで、画像内の個々のオブジェクトとテキスト的主張を選択的に整合させる。
- テスト段階では、2つの入力キャプション間の整合性予測を比較する。両者が同じオブジェクトを指しているが意味的に矛盾する場合、画像は文脈外とマークされる。
- 画像領域とそれに対応するキャプションの整合性を促進し、関係のないペアを遠ざけるために、対照的損失関数を用いてモデルを学習する。
- ニュース、ブログ、ソーシャルメディアから得た20万枚の画像と45万件のキャプションを用い、文脈外ラベルを明示的に含まない形でモデルを事前学習する。
- オブジェクト検出と視覚的意味的埋め込みを組み合わせ、テキスト的主張を画像コンテンツに対して局所化・比較可能にする。
実験結果
リサーチクエスチョン
- RQ1明示的なアノテーションを必要とせず、自己教師あり学習を用いて文脈外の画像誤用を効果的に検出できるか?
- RQ2正確な検出には、テキスト的主張を特定の画像内オブジェクトに対応付けることが不可欠であるのか、それとも言語のみのモデルで十分か?
- RQ3自己教師あり設定において、トレーニングデータ量の増加に伴い、モデルの性能はどのように変化するか?
- RQ4既存のフェイクニュースやウソ情報検出モデルと比較して、本手法は文脈外の画像使用をどのように特定するか?
- RQ5異なるテキスト埋め込みモデルの選択が、文脈外検出性能に与える影響は何か?
主な発見
- 提案手法は85%の文脈外検出精度を達成し、EANN(63%)、EmbraceNet(68%)、Jin et al.(71%)といった既存のベースラインを大きく上回る。
- 16万枚のデータで学習した場合(16K枚)から160万枚のデータで学習した場合(160K枚)に比べ、検出精度が13ポイント上昇(72% → 85%)する。
- モデルの性能は、対照的学習のマッチング精度と強く相関しており、効果的な画像・テキストの整合性が文脈外使用の検出に不可欠であることを示している。
- 言語のみのモデルでは、キャプションが画像内の異なるオブジェクトを指している場合に文脈外ケースを検出できないことが判明し、視覚的グランドイングの必要性が明確になった。
- BERT や USE といった強力な事前学習モデルでさえ、本手法は8%の精度上回り、視覚的グランドイングの優位性を実証した。
- 20万枚の画像と45万件のキャプション(うち1,700組の手動アノテーション付きトリオレートペアを含む)を含む本手法のデータセットは、今後の文脈外誤情報研究のための強固なベンチマークを提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。