Skip to main content
QUICK REVIEW

[論文レビュー] VL-KGE: Vision-Language Models Meet Knowledge Graph Embeddings

Athanasios Efthymiou, Stevan Rudinac|arXiv (Cornell University)|Mar 2, 2026
Advanced Graph Neural Networks被引用数 0
ひとこと要約

VL-KGE は、事前学習済みの vision–language 表現をリレーショナル KGE のバックボーンと統合して、モダリティの非対称性に対処し、マルチモーダル知識グラフ上でリンク予測を改善します。WN9-IMG と新たに導入された WikiArt-MKGs の両方で一貫した利得を示します。

ABSTRACT

Real-world multimodal knowledge graphs (MKGs) are inherently heterogeneous, modeling entities that are associated with diverse modalities. Traditional knowledge graph embedding (KGE) methods excel at learning continuous representations of entities and relations, yet they are typically designed for unimodal settings. Recent approaches extend KGE to multimodal settings but remain constrained, often processing modalities in isolation, resulting in weak cross-modal alignment, and relying on simplistic assumptions such as uniform modality availability across entities. Vision-Language Models (VLMs) offer a powerful way to align diverse modalities within a shared embedding space. We propose Vision-Language Knowledge Graph Embeddings (VL-KGE), a framework that integrates cross-modal alignment from VLMs with structured relational modeling to learn unified multimodal representations of knowledge graphs. Experiments on WN9-IMG and two novel fine art MKGs, WikiArt-MKG-v1 and WikiArt-MKG-v2, demonstrate that VL-KGE consistently improves over traditional unimodal and multimodal KGE methods in link prediction tasks. Our results highlight the value of VLMs for multimodal KGE, enabling more robust and structured reasoning over large-scale heterogeneous knowledge graphs.

研究の動機と目的

  • 異なるエンティティ間で完全なモダリティを仮定するのではなく、異種モダリティの利用可能性を扱うマルチモーダル KGE の動機付け。
  • Vision-language 表現と構造的リレーショナルモデリングを融合する VL-KGE の提案。
  • 事前学習済み VLM 特徴を用いた見えないエンティティへの帰納推論の実現。
  • 大規模な美術素 MKG の作成と公開(WikiArt-MKG-v1、WikiArt-MKG-v2)を通じて、KG におけるモダリティ非対称性を研究。
  • 特にモダリティ非対称性の下で、ベンチマーク全体でリンク予測性能の改善を示す。

提案手法

  • 利用可能なモダリティ(構造的、視覚的、テキスト的)を融合演算子を介して統一埋め込みとして各エンティティを表現する。
  • KGE バックボーン(TransE、DistMult、ComplEx、RotatE)と併用して事前学習済み vision-language エンコーダ(BLIP または CLIP)を取り入れ、微調整または凍結のオプションを提供。
  • モダリティ非対称性を、利用可能なモダリティから r_e を平均、連結、または重み付け融合を用いて生成することで対処する。
  • 構造埋め込みが利用できない unseen なエンティティに対して、事前学習済み特徴のみに基づいて表現を導出して帰納推論をサポート。
  • 複素数バックボーンを拡張し、帰納適合性のための虚部を生成するメカニズム(P projection、ゲーティング)を追加。
  • 正例三重項を負例より高くスコアリングするロジスティック損失で訓練する:L = sum log(1+exp(-y * f(h,r,t))).
Figure 3. Qualitative comparison of zero-shot CLIP and VL-ComplEx (base: CLIP) on WikiArt-MKG-v2. Given an artwork (top rows) or an artist (bottom rows) as a query, we show the top-5 predicted entities for selected relations. For artist queries, we use only textual input representations. Correctly r
Figure 3. Qualitative comparison of zero-shot CLIP and VL-ComplEx (base: CLIP) on WikiArt-MKG-v2. Given an artwork (top rows) or an artist (bottom rows) as a query, we show the top-5 predicted entities for selected relations. For artist queries, we use only textual input representations. Correctly r

実験結果

リサーチクエスチョン

  • RQ1モダリティ非対称性の下で、事前学習済み vision–language 表現は知識グラフ埋め込みを改善できるか?
  • RQ2見えないエンティティを含む帰納設定での VL-KGE の性能は?
  • RQ3モダリティを組み合わせる最適な融合戦略は平均、連結、重み付けのどれか?
  • RQ4VL-KGE は標準的な MKG および美術作品ベースのベンチマークで、単一モーダルおよび他のマルチモーダルベースと比較して利得が持続するか?

主な発見

MethodMRRHits@1Hits@3Hits@10
MMKRL0.9130.9050.9170.932
OTKGE0.9230.9110.9300.947
TransE0.9040.8940.9090.922
VB-TransE0.9100.8900.9230.944
VL-TransE (BLIP)0.9100.8940.9210.940
VL-TransE (CLIP)0.9130.8900.9280.950
DistMult0.9040.9020.9040.907
VB-DistMult0.9230.9140.9270.938
VL-DistMult (BLIP)0.9090.9070.9080.914
VL-DistMult (CLIP)0.9350.9250.9400.957
ComplEx0.9000.8990.9010.902
VB-ComplEx0.9160.9100.9180.924
VL-ComplEx (BLIP)0.9030.9000.9040.907
VL-ComplEx (CLIP)0.9270.9200.9290.941
RotatE0.9100.9070.9110.917
VB-RotatE0.9100.9030.9140.925
VL-RotatE (BLIP)0.9110.8980.9180.931
VL-RotatE (CLIP)0.9140.9040.9180.934
  • VL-KGE は、WN9-IMG において全てのバックボーンで単一モーダルおよび他のモルディオール KGE ベースラインを一貫して上回る。
  • CLIP ベースの VL-KGE 変種は全体的な性能が高く、VL-DistMult および VL-ComplEx(CLIP)が特に WN9-IMG で高い。
  • モダリティ非対称性が本質的な WikiArt-MKG-v1 および WikiArt-MKG-v2 で大きな利得を示し、欠損モダリティ下での頑健性を実証。
  • ドメインに合わせた事前学習 VLM(例:ImageNet と整合した視覚情報を持つ CLIP)を用いると知識推論の関係推論が強化される。
  • unseen エンティティに対して、利用可能なモダリティから表現を導出して新規エンティティごとに再訓練せずに帰納推論をサポート。
Figure 4. Per-relation mean reciprocal rank (MRR) on the WikiArt-MKG-v2 validation set for zero-shot CLIP and VL-KGEs.
Figure 4. Per-relation mean reciprocal rank (MRR) on the WikiArt-MKG-v2 validation set for zero-shot CLIP and VL-KGEs.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。