[论文解读] COSMOS: Catching Out-of-Context Misinformation with Self-Supervised Learning
该论文提出COSMOS,一种自监督方法,通过将文本声明定位到图像中的特定对象来检测图像-文本对的语境错位,无需显式标注语境错位样本即可实现85%的检测准确率。该方法利用带字幕图像上的对比学习来学习选择性图像-文本对齐,从而在视觉内容未改变的情况下也能准确识别误导性图像使用。
Despite the recent attention to DeepFakes, one of the most prevalent ways to mislead audiences on social media is the use of unaltered images in a new but false context. To address these challenges and support fact-checkers, we propose a new method that automatically detects out-of-context image and text pairs. Our key insight is to leverage the grounding of image with text to distinguish out-of-context scenarios that cannot be disambiguated with language alone. We propose a self-supervised training strategy where we only need a set of captioned images. At train time, our method learns to selectively align individual objects in an image with textual claims, without explicit supervision. At test time, we check if both captions correspond to the same object(s) in the image but are semantically different, which allows us to make fairly accurate out-of-context predictions. Our method achieves 85% out-of-context detection accuracy. To facilitate benchmarking of this task, we create a large-scale dataset of 200K images with 450K textual captions from a variety of news websites, blogs, and social media posts. The dataset and source code is publicly available at https://shivangi-aneja.github.io/projects/cosmos/.
研究动机与目标
- 为应对社交媒体和新闻中日益严重的图像语境错位滥用问题,即未修改的图像与虚假或误导性字幕配对。
- 开发一种自动化方法,无需依赖语境错位对的人工标注即可检测此类滥用行为。
- 通过视觉定位实现机器辅助检测图像-文本错位,提升事实核查效率。
- 构建一个大规模的语境错位图像检测基准数据集,以支持未来研究。
- 证明将字幕定位到特定图像对象是实现准确检测的关键,优于仅依赖语言的方法。
提出的方法
- 该方法采用自监督对比学习策略,将来自同一图像的匹配图像-文本对(正样本)与来自其他图像的随机字幕(负样本)进行对比。
- 通过视觉-语言模型关注相关图像区域,学习将图像中的单个对象与文本声明选择性对齐。
- 在推理阶段,模型比较两个输入字幕的对齐预测结果:若它们指向同一对象但语义冲突,则判定图像为语境错位。
- 模型使用对比损失进行训练,该损失鼓励图像区域与其对应字幕对齐,同时将不相关对推开。
- 使用包含20万张图像和45万条字幕(来自新闻、博客和社交媒体)的大规模数据集进行模型预训练,无需显式标注语境错位标签。
- 该方法结合目标检测与视觉-语义嵌入技术,实现对文本声明相对于图像内容的定位与比较。
实验结果
研究问题
- RQ1自监督学习能否在无需显式标注的情况下有效检测语境错位的图像滥用?
- RQ2将文本声明定位到特定图像对象是否对准确检测至关重要,还是仅依赖语言模型即可?
- RQ3在自监督设置下,随着训练数据量增加,模型性能如何变化?
- RQ4与现有虚假新闻和谣言检测模型相比,所提方法在识别语境错位图像使用方面表现如何?
- RQ5不同文本嵌入模型对语境错位检测性能有何影响?
主要发现
- 所提方法实现85%的语境错位检测准确率,显著优于现有基线方法(EANN为63%,EmbraceNet为68%,Jin等人为71%)。
- 使用全部16万张图像数据集训练,检测准确率相比仅使用10%数据(1.6万张图像)提升13个百分点(从72%提升至85%)。
- 模型性能与对比学习目标上的匹配准确率高度相关,表明有效的图像-文本对齐是检测语境错位的关键。
- 当字幕指向图像中不同对象时,仅依赖语言的模型无法检测语境错位情况,凸显视觉定位的必要性。
- 与强基线预训练模型(如BERT和USE)相比,该方法在语境错位检测准确率上高出8%,证明视觉定位的优势。
- 所提出的20万张图像、45万条字幕数据集(含1,700对人工标注的三元组)为未来语境错位信息研究提供了稳健的基准。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。