QUICK REVIEW

[論文レビュー] ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph

F. Richard Yu, Jiji Tang|arXiv (Cornell University)|Jun 30, 2020

Multimodal Machine Learning Applications参考文献 32被引用数 118

ひとこと要約

ERNIE-ViL はシーングラフ予測タスクを導入し、構造化されたシーン知識をビジョン-言語プリトレーニングに注入し、5つの下流タスクで最先端の結果を達成し、VCRリーダーボードで絶対差3.7%上回る。

ABSTRACT

We propose a knowledge-enhanced approach, ERNIE-ViL, which incorporates structured knowledge obtained from scene graphs to learn joint representations of vision-language. ERNIE-ViL tries to build the detailed semantic connections (objects, attributes of objects and relationships between objects) across vision and language, which are essential to vision-language cross-modal tasks. Utilizing scene graphs of visual scenes, ERNIE-ViL constructs Scene Graph Prediction tasks, i.e., Object Prediction, Attribute Prediction and Relationship Prediction tasks in the pre-training phase. Specifically, these prediction tasks are implemented by predicting nodes of different types in the scene graph parsed from the sentence. Thus, ERNIE-ViL can learn the joint representations characterizing the alignments of the detailed semantics across vision and language. After pre-training on large scale image-text aligned datasets, we validate the effectiveness of ERNIE-ViL on 5 cross-modal downstream tasks. ERNIE-ViL achieves state-of-the-art performances on all these tasks and ranks the first place on the VCR leaderboard with an absolute improvement of 3.7%.

研究の動機と目的

細粒度なクロスメディアの意味内容（オブジェクト、属性、関係）を捉えることで、ビジョン-言語プリトレーニングの改善を動機づける。
シーングラフからの構造化知識をプリトレーニングに組み込み、クロスメディアルアライメントを強化する。
シーングラフガイド付きプリトレーニングが複数のクロスメディアルベンチマークで利得を生むことを示す。

提案手法

文の解析済みシーングラフからオブジェクト、属性、関係をマスキングして予測するシーングラフ予測タスクを構築する。
2ストリーム型のクロスモーダル・トランスフォーマーアーキテクチャを用いて、画像領域とテキストをクロスモーダルアテンションで共同モデリングする。
シーングラフ予測損失、MLM、Masked Region Prediction、Image-Text Matchingを組み合わせて事前学習する。
テキストから解釈されたシーングラフが、ターゲットとなる予測（オブジェクト予測、属性予測、関係予測）をガイドする。
オブジェクト/属性/関係ノードは特定の戦略でマスクされ、テキストと画像領域の両方の文脈を用いて回復される。

実験結果

リサーチクエスチョン

RQ1事前学習時に構造化されたシーングラフ知識を組み込むことで、細粒度のビジョン-言語理解を改善できるか？
RQ2シーングラフ予測タスクは、モダリティ間でのオブジェクト、属性、関係のクロスメディアルアライメントを改善するか？
RQ3従来の事前学習法と比較した場合、標準的なビジョン-言語ベンチマーク（VCR、VQA、RefCOCO+、Flickrベースの検索）でのERNIE-ViLの性能はどうか？
RQ4シーングラフ誘導目的を用いた場合、ドメイン内データとドメイン外データの事前学習データの影響はどうなるか？

主な発見

5つの下流ビジョン-言語タスクで最先端の結果を達成。
VCRでは、ERNIE-ViL-largeはベースラインに対して大幅な改善を示し、Q→ARで従来法を3.7%の絶対改善で上回り、VCRリーダーボードで1位に立った。
RefCOCO+ における Region-to-Phrase grounding は、Scene Graph Prediction 使用時に顕著な改善を示し、テストセットで2.4%の改善。
Scene Graph Prediction を用いた事前学習はタスク全般で測定可能な利得を提供し、ERNIE-2.0 または BERT で初期化されたモデルを比較した場合に文書化可能な改善を示す。
Cloze テストは、SGP タスクを持つモデルがオブジェクト、属性、関係をより正確に予測することを示し、より強いクロスメディアルの詳細意味理解を示唆。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。