Skip to main content
QUICK REVIEW

[論文レビュー] ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph

F. Richard Yu, Jiji Tang|arXiv (Cornell University)|Jun 30, 2020
Multimodal Machine Learning Applications参考文献 32被引用数 118
ひとこと要約

ERNIE-ViL はシーングラフ予測タスクを導入し、構造化されたシーン知識をビジョン-言語プリトレーニングに注入し、5つの下流タスクで最先端の結果を達成し、VCRリーダーボードで絶対差3.7%上回る。

ABSTRACT

We propose a knowledge-enhanced approach, ERNIE-ViL, which incorporates structured knowledge obtained from scene graphs to learn joint representations of vision-language. ERNIE-ViL tries to build the detailed semantic connections (objects, attributes of objects and relationships between objects) across vision and language, which are essential to vision-language cross-modal tasks. Utilizing scene graphs of visual scenes, ERNIE-ViL constructs Scene Graph Prediction tasks, i.e., Object Prediction, Attribute Prediction and Relationship Prediction tasks in the pre-training phase. Specifically, these prediction tasks are implemented by predicting nodes of different types in the scene graph parsed from the sentence. Thus, ERNIE-ViL can learn the joint representations characterizing the alignments of the detailed semantics across vision and language. After pre-training on large scale image-text aligned datasets, we validate the effectiveness of ERNIE-ViL on 5 cross-modal downstream tasks. ERNIE-ViL achieves state-of-the-art performances on all these tasks and ranks the first place on the VCR leaderboard with an absolute improvement of 3.7%.

研究の動機と目的

  • 細粒度なクロスメディアの意味内容(オブジェクト、属性、関係)を捉えることで、ビジョン-言語プリトレーニングの改善を動機づける。
  • シーングラフからの構造化知識をプリトレーニングに組み込み、クロスメディアルアライメントを強化する。
  • シーングラフガイド付きプリトレーニングが複数のクロスメディアルベンチマークで利得を生むことを示す。

提案手法

  • 文の解析済みシーングラフからオブジェクト、属性、関係をマスキングして予測するシーングラフ予測タスクを構築する。
  • 2ストリーム型のクロスモーダル・トランスフォーマーアーキテクチャを用いて、画像領域とテキストをクロスモーダルアテンションで共同モデリングする。
  • シーングラフ予測損失、MLM、Masked Region Prediction、Image-Text Matchingを組み合わせて事前学習する。
  • テキストから解釈されたシーングラフが、ターゲットとなる予測(オブジェクト予測、属性予測、関係予測)をガイドする。
  • オブジェクト/属性/関係ノードは特定の戦略でマスクされ、テキストと画像領域の両方の文脈を用いて回復される。

実験結果

リサーチクエスチョン

  • RQ1事前学習時に構造化されたシーングラフ知識を組み込むことで、細粒度のビジョン-言語理解を改善できるか?
  • RQ2シーングラフ予測タスクは、モダリティ間でのオブジェクト、属性、関係のクロスメディアルアライメントを改善するか?
  • RQ3従来の事前学習法と比較した場合、標準的なビジョン-言語ベンチマーク(VCR、VQA、RefCOCO+、Flickrベースの検索)でのERNIE-ViLの性能はどうか?
  • RQ4シーングラフ誘導目的を用いた場合、ドメイン内データとドメイン外データの事前学習データの影響はどうなるか?

主な発見

  • 5つの下流ビジョン-言語タスクで最先端の結果を達成。
  • VCRでは、ERNIE-ViL-largeはベースラインに対して大幅な改善を示し、Q→ARで従来法を3.7%の絶対改善で上回り、VCRリーダーボードで1位に立った。
  • RefCOCO+ における Region-to-Phrase grounding は、Scene Graph Prediction 使用時に顕著な改善を示し、テストセットで2.4%の改善。
  • Scene Graph Prediction を用いた事前学習はタスク全般で測定可能な利得を提供し、ERNIE-2.0 または BERT で初期化されたモデルを比較した場合に文書化可能な改善を示す。
  • Cloze テストは、SGP タスクを持つモデルがオブジェクト、属性、関係をより正確に予測することを示し、より強いクロスメディアルの詳細意味理解を示唆。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。