Skip to main content
QUICK REVIEW

[論文レビュー] Interpretable Detection of Out-of-Context Misinformation with Neural-Symbolic-Enhanced Large Multimodal Model

Yizhou Zhang, Loc Trinh|arXiv (Cornell University)|Apr 15, 2023
Misinformation and Its Impacts被引用数 8
ひとこと要約

本論文は、AMRグラフからテキストクエリを抽出し、大規模ビジョン言語モデルを利用して検証を問合せ、証拠をランク付けして一貫性を予測する、解釈可能な神経-記号的フレームワークを提案します。出典:out-of-context multimodal misinformationを検出します。

ABSTRACT

Recent years have witnessed the sustained evolution of misinformation that aims at manipulating public opinions. Unlike traditional rumors or fake news editors who mainly rely on generated and/or counterfeited images, text and videos, current misinformation creators now more tend to use out-of-context multimedia contents (e.g. mismatched images and captions) to deceive the public and fake news detection systems. This new type of misinformation increases the difficulty of not only detection but also clarification, because every individual modality is close enough to true information. To address this challenge, in this paper we explore how to achieve interpretable cross-modal de-contextualization detection that simultaneously identifies the mismatched pairs and the cross-modal contradictions, which is helpful for fact-check websites to document clarifications. The proposed model first symbolically disassembles the text-modality information to a set of fact queries based on the Abstract Meaning Representation of the caption and then forwards the query-image pairs into a pre-trained large vision-language model select the ``evidences" that are helpful for us to detect misinformation. Extensive experiments indicate that the proposed methodology can provide us with much more interpretable predictions while maintaining the accuracy same as the state-of-the-art model on this task.

研究の動機と目的

  • 従来の検出器を回避するアウトオブコンテキストのマルチメディア偽情報の課題に対応する。
  • 信頼性予測と Supporting evidences を出力する解釈可能なデテクターを開発する。
  • AMRベースの記号的クエリと事前学習済みのビジョン言語モデルを活用して、詳細な跨モーダルの不整合を捉える。
  • 検証のための最も信頼性の高い支持文を特定するエビデンスランキン機構を提供する。

提案手法

  • キャプションを抽象意味表現(AMR)グラフに解析し、要素文をテキストクエリとして抽出する。
  • 関連する画像とともにクエリを事前学習済みの大規模ビジョン言語モデルにフォワードして、各クエリの支持を評価する。
  • クエリランカーを訓練してスコア付けし、最も情報量の多いクエリを証拠として最終予測に向けて選択する。
  • 最終的な信頼性判断と整合する高重要度クエリのエビデンスを出力する。
  • True/False にラベル付けされたエッジとファジー論理による融合を用いたニューレベル記号グラフで最終決定を行う。

実験結果

リサーチクエスチョン

  • RQ1解釈可能なクエリベースの推論を用いたアウトオブコンテキストなマルチモーダル偽情報を、不可解な潜在表現ではなく検出できるか。
  • RQ2AMR由来のクエリと大規模ビジョン言語モデルは、跨モーダルの文脈解除に対して正確で説明可能な証拠を提供するか。
  • RQ3クエリランキ機構は予測精度と生成エビデンスの品質の両方を改善するか。

主な発見

ModelAccuracy ↑AUC of ROC ↑FAR ↓FRR ↓
MLPs53.956.239.152.9
SAFE50.758.460.1
VisualBERT54.854.935.4
FaceNet + BERT59.663.740.340.6
CLIP62.667.237.337.3
VINVL65.471.934.234.2
Ours (w/o Query Ranker)62.866.942.833.5
Ours68.273.029.534.6
  • 提案手法は、NewsCLIPpingsの大半の指標でベースラインを上回る精度とAUCを達成し、スクラッチで訓練したモデルとの差が顕著である。
  • クエリランカを含む全体モデルはベースラインを上回り、精度と解釈性の最良のトレードオフを実現する。
  • クエリランカーなしの変種はファインチューニング済みCLIPと同等程度の性能を示し、ランカーとAMRベースのクエリ抽出の重要性を示唆する。
  • 解釈性評価では、エビデンスのトークンをX、Y、Zテンプレートと一致させた場合、全モデルはベースラインより高い HIT@10 のエビデンスを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。