QUICK REVIEW

[論文レビュー] Contrastive Language-Image Pre-Training with Knowledge Graphs

Xuran Pan, Tianzhu Ye|arXiv (Cornell University)|Oct 17, 2022

Multimodal Machine Learning Applications被引用数 23

ひとこと要約

Knowledge-CLIP は CLIP にマルチモーダル知識グラフを注入し、マルチモーダルエンコーダと新しい損失項を追加して視覚と言語を意味論的関係で整合させ、下流の視覚-言語タスクを改善します。

ABSTRACT

Recent years have witnessed the fast development of large-scale pre-training frameworks that can extract multi-modal representations in a unified form and achieve promising performances when transferred to downstream tasks. Nevertheless, existing approaches mainly focus on pre-training with simple image-text pairs, while neglecting the semantic connections between concepts from different modalities. In this paper, we propose a knowledge-based pre-training framework, dubbed Knowledge-CLIP, which injects semantic information into the widely used CLIP model. Through introducing knowledge-based objectives in the pre-training process and utilizing different types of knowledge graphs as training data, our model can semantically align the representations in vision and language with higher quality, and enhance the reasoning ability across scenarios and modalities. Extensive experiments on various vision-language downstream tasks demonstrate the effectiveness of Knowledge-CLIP compared with the original CLIP and competitive baselines.

研究の動機と目的

CLIP が意味論的理解とクロスモーダル推論で直面する制限を動機づける。
マルチモーダル、シーン、および言語グラフを組み込んだ知識強化型事前学習フレームワークを提案する。
CLIP の重みから連続学習を行いながら、グラフベースの知識を注入して効率的なトレーニングを実現する。

提案手法

2 つのエンコーダ（画像とテキスト）とマルチモーダルトランスフォーマを用いてトリプレットベースの知識グラフデータを融合する。
知識をマルチモーダル、シーン、言語KGデータセットから抽出されたトリプレット（h, r, t）として表現する。
トリプレットベースの（E2E, E2R）損失とグラフベースの（G2E）損失を導入し、意味関係とグラフ構造をモデル化する。
元の CLIP 出力と整合させることで忘却を抑制する知識蒸留損失を維持する。
VisualSem、Visual Genome、ConceptNet、画像-テキストデータセット COCO Caption および CC3M で事前学習を行い、CLIP 重みから初期化する。

実験結果

リサーチクエスチョン

RQ1知識グラフは CLIP が画像-テキスト対で達成する以上のクロスモーダル意味整合を向上させるか。
RQ2トリプレットベースとグラフベースの目的は共同で視覚-言語理解を改善するか。
RQ3CLIP 初期化による継続学習は、知識を注入しつつ忘却を防ぐか。
RQ4Knowledge-CLIP は、CLIP およびベースラインと比較して、検索、VQA/SNLI-VE、ImageNet、GLUE でどのように性能を出すか。

主な発見

Method	Flickr30K Text R@1	Flickr30K Text R@5	Flickr30K Text R@10	Flickr30K Image R@1	Flickr30K Image R@5	Flickr30K Image R@10	MSCOCO Text R@1	MSCOCO Text R@5	MSCOCO Text R@10	MSCOCO Image R@1	MSCOCO Image R@5	MSCOCO Image R@10
CLIP	88.6	98.5	99.4	72.4	92.3	96.6	67.3	85.4	92.4	54.3	83.5	90.0
Ours	89.2	98.9	99.4	75.7	94.4	96.8	70.2	89.2	94.4	57.6	83.9	90.4

Knowledge-CLIP は image-text retrieval タスク（Flickr30K および COCO Caption）とマルチモーダル VQA タスクで CLIP を上回る。
また VQA/SNLI-VE および ImageNet/GLUE ベンチマークで競合的または優位な結果を示し、特に意味推論を要するタスクで効果的。
アブレーションにより E2E、E2R、G2E 損失がそれぞれ利益に寄与し、KD 損失は忘却防止に不可欠であることが示された。
CLIP 初期化を用いた継続学習は、単純な CLIP 微調整よりも知識データを増やしただけの場合より良い性能をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。