Skip to main content
QUICK REVIEW

[논문 리뷰] COSMOS: Catching Out-of-Context Misinformation with Self-Supervised Learning

Shivangi Aneja, Chris Bregler|arXiv (Cornell University)|2021. 01. 15.
Misinformation and Its Impacts인용 수 23
한 줄 요약

이 논문은 이미지의 특정 객체에 텍스트적 진술을 기반으로 매칭함으로써, 명시적인 외부 맥락 정보 없이도 85%의 정확도로 외부 맥락에서 벗어난 이미지-텍스트 쌍을 탐지하는 자기지도 학습 방법인 COSMOS를 제안한다. 이 방법은 캡션화된 이미지에서 대조 학습을 활용하여 선택적 이미지-텍스트 정렬을 학습함으로써, 시각적 내용이 변경되지 않은 상태에서도 오용된 이미지 사용을 정확하게 식별할 수 있도록 한다.

ABSTRACT

Despite the recent attention to DeepFakes, one of the most prevalent ways to mislead audiences on social media is the use of unaltered images in a new but false context. To address these challenges and support fact-checkers, we propose a new method that automatically detects out-of-context image and text pairs. Our key insight is to leverage the grounding of image with text to distinguish out-of-context scenarios that cannot be disambiguated with language alone. We propose a self-supervised training strategy where we only need a set of captioned images. At train time, our method learns to selectively align individual objects in an image with textual claims, without explicit supervision. At test time, we check if both captions correspond to the same object(s) in the image but are semantically different, which allows us to make fairly accurate out-of-context predictions. Our method achieves 85% out-of-context detection accuracy. To facilitate benchmarking of this task, we create a large-scale dataset of 200K images with 450K textual captions from a variety of news websites, blogs, and social media posts. The dataset and source code is publicly available at https://shivangi-aneja.github.io/projects/cosmos/.

연구 동기 및 목표

  • 소셜 미디어 및 뉴스에서 시각적 내용이 그대로 유지된 채로 잘못된 또는 오해의 소지가 있는 캡션과 짝지어진 이미지의 외부 맥락에서 벗어난 사용 증가 문제를 해결하기 위해.
  • 외부 맥락에서 벗어난 쌍에 대한 수동 레이블에 의존하지 않고도 이러한 오용을 자동으로 탐지할 수 있는 방법을 개발하기 위해.
  • 시각적 기반 매칭을 통한 기계 보조 이미지-텍스트 불일치 탐지 기능을 통해 사실 확인의 효율성을 향상시키기 위해.
  • 미래의 연구를 지원하기 위해 대규모 외부 맥락에서 벗어난 이미지 탐지용 벤치마크 데이터셋을 구축하기 위해.
  • 특정 이미지 객체에 텍스트 진술을 기반으로 매칭하는 것이 정확한 탐지에 필수적이며, 언어만을 사용하는 접근 방식을 뛰어넘는다는 것을 입증하기 위해.

제안 방법

  • 이 방법은 동일한 이미지에서 유래한 일치하는 이미지-텍스트 쌍(긍정 예)을 다른 이미지의 랜덤 캡션(부정 예)과 대비시키는 자기지도 학습 대조 학습 전략을 사용한다.
  • 모델은 관련된 이미지 영역에 주의를 기울이는 비전-언어 모델을 통해 이미지 내 개별 객체를 텍스트 진술과 선택적으로 정렬하도록 학습한다.
  • 테스트 시점에, 두 입력 캡션 간의 정렬 예측을 비교한다. 만약 두 캡션이 같은 객체를 가리키지만 의미가 상충된다면, 이미지는 외부 맥락에서 벗어난 것으로 표시된다.
  • 이 모델은 이미지 영역과 해당 캡션 간의 정렬을 장려하고 관련이 없는 쌍은 밀어내는 대조 손실을 사용하여 훈련된다.
  • 외부 맥락 레이블 없이도 훈련할 수 있도록 뉴스, 블로그, 소셜 미디어에서 유래한 20만 장의 이미지와 45만 개의 캡션을 포함한 대규모 데이터셋을 사용하여 모델을 사전 훈련한다.
  • 객체 검출 및 시각-의미 임베딩을 통합하여 텍스트 진술을 이미지 콘텐츠에 상대적으로 국소화하고 비교한다.

실험 결과

연구 질문

  • RQ1명시적인 레이블 없이도 자기지도 학습이 외부 맥락에서 벗어난 이미지 오용을 효과적으로 탐지하는 데 사용될 수 있는가?
  • RQ2정확한 탐지에 있어 특정 이미지 객체에 텍스트 진술을 기반으로 매칭하는 것이 필수적인가, 아니면 언어만을 사용하는 모델로도 충분한가?
  • RQ3자기지도 설정에서 훈련 데이터의 양이 증가함에 따라 모델 성능은 어떻게 변화하는가?
  • RQ4기존의 가짜 뉴스 및 소문 탐지 모델과 비교해 볼 때, 제안된 방법은 외부 맥락에서 벗어난 이미지 사용을 어떻게 탐지하는가?
  • RQ5다양한 텍스트 임베딩 모델의 선택은 외부 맥락에서 벗어난 탐지 성능에 어떤 영향을 미치는가?

주요 결과

  • 제안된 방법은 85%의 외부 맥락에서 벗어난 탐지 정확도를 달성하며, EANN, EmbraceNet, Jin et al.와 같은 기존 베이스라인 모델들(각각 63%, 68%, 71% 정확도)을 크게 뛰어넘는다.
  • 16만 장의 전체 데이터셋으로 훈련할 경우, 10% 데이터(1만 6천 장)로 훈련한 경우(72% 정확도)에 비해 정확도가 13%포인트 향상되어 85%로 상승한다.
  • 모델의 성능은 대조 학습 목표에서의 일치 정확도와 강하게 상관되어 있으며, 효과적인 이미지-텍스트 정렬이 외부 맥락에서 벗어난 사용을 탐지하는 데 핵심 요소임을 시사한다.
  • 캡션이 이미지 내 다른 객체를 가리키는 경우 언어 전용 모델은 외부 맥락에서 벗어난 경우를 탐지하지 못함을 보여주며, 시각적 기반 매칭의 필요성을 입증한다.
  • BERT 및 USE와 같은 강력한 사전 훈련된 모델들보다도 8% 높은 외부 맥락에서 벗어난 탐지 정확도를 기록함으로써, 시각적 기반 매칭의 우수성을 입증한다.
  • 20만 장의 이미지와 45만 개의 캡션(수동으로 레이블링된 1,700개의 삼중쌍 포함)을 포함한 제안된 데이터셋은 향후 외부 맥락 오해의 소지가 있는 정보에 대한 연구를 위한 견고한 벤치마크를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.