[論文レビュー] ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph
ERNIE-ViL はシーングラフ予測タスクを導入し、構造化されたシーン知識をビジョン-言語プリトレーニングに注入し、5つの下流タスクで最先端の結果を達成し、VCRリーダーボードで絶対差3.7%上回る。
We propose a knowledge-enhanced approach, ERNIE-ViL, which incorporates structured knowledge obtained from scene graphs to learn joint representations of vision-language. ERNIE-ViL tries to build the detailed semantic connections (objects, attributes of objects and relationships between objects) across vision and language, which are essential to vision-language cross-modal tasks. Utilizing scene graphs of visual scenes, ERNIE-ViL constructs Scene Graph Prediction tasks, i.e., Object Prediction, Attribute Prediction and Relationship Prediction tasks in the pre-training phase. Specifically, these prediction tasks are implemented by predicting nodes of different types in the scene graph parsed from the sentence. Thus, ERNIE-ViL can learn the joint representations characterizing the alignments of the detailed semantics across vision and language. After pre-training on large scale image-text aligned datasets, we validate the effectiveness of ERNIE-ViL on 5 cross-modal downstream tasks. ERNIE-ViL achieves state-of-the-art performances on all these tasks and ranks the first place on the VCR leaderboard with an absolute improvement of 3.7%.
研究の動機と目的
- 細粒度なクロスメディアの意味内容(オブジェクト、属性、関係)を捉えることで、ビジョン-言語プリトレーニングの改善を動機づける。
- シーングラフからの構造化知識をプリトレーニングに組み込み、クロスメディアルアライメントを強化する。
- シーングラフガイド付きプリトレーニングが複数のクロスメディアルベンチマークで利得を生むことを示す。
提案手法
- 文の解析済みシーングラフからオブジェクト、属性、関係をマスキングして予測するシーングラフ予測タスクを構築する。
- 2ストリーム型のクロスモーダル・トランスフォーマーアーキテクチャを用いて、画像領域とテキストをクロスモーダルアテンションで共同モデリングする。
- シーングラフ予測損失、MLM、Masked Region Prediction、Image-Text Matchingを組み合わせて事前学習する。
- テキストから解釈されたシーングラフが、ターゲットとなる予測(オブジェクト予測、属性予測、関係予測)をガイドする。
- オブジェクト/属性/関係ノードは特定の戦略でマスクされ、テキストと画像領域の両方の文脈を用いて回復される。
実験結果
リサーチクエスチョン
- RQ1事前学習時に構造化されたシーングラフ知識を組み込むことで、細粒度のビジョン-言語理解を改善できるか?
- RQ2シーングラフ予測タスクは、モダリティ間でのオブジェクト、属性、関係のクロスメディアルアライメントを改善するか?
- RQ3従来の事前学習法と比較した場合、標準的なビジョン-言語ベンチマーク(VCR、VQA、RefCOCO+、Flickrベースの検索)でのERNIE-ViLの性能はどうか?
- RQ4シーングラフ誘導目的を用いた場合、ドメイン内データとドメイン外データの事前学習データの影響はどうなるか?
主な発見
- 5つの下流ビジョン-言語タスクで最先端の結果を達成。
- VCRでは、ERNIE-ViL-largeはベースラインに対して大幅な改善を示し、Q→ARで従来法を3.7%の絶対改善で上回り、VCRリーダーボードで1位に立った。
- RefCOCO+ における Region-to-Phrase grounding は、Scene Graph Prediction 使用時に顕著な改善を示し、テストセットで2.4%の改善。
- Scene Graph Prediction を用いた事前学習はタスク全般で測定可能な利得を提供し、ERNIE-2.0 または BERT で初期化されたモデルを比較した場合に文書化可能な改善を示す。
- Cloze テストは、SGP タスクを持つモデルがオブジェクト、属性、関係をより正確に予測することを示し、より強いクロスメディアルの詳細意味理解を示唆。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。