Skip to main content
QUICK REVIEW

[論文レビュー] ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

Wonjae Kim, Bokyung Son|arXiv (Cornell University)|Feb 5, 2021
Multimodal Machine Learning Applications参考文献 62被引用数 538
ひとこと要約

ViLTは、パッチ投影画像トークンと単一のトランスフォーマを用いた最小限のVision-and-Language事前学習モデルを提示し、領域ベースや畳み込み視覚埋め込みを排除することで推論をはるかに高速化しつつ、マルチモーダル相互作用において競争力のある性能を実現します。

ABSTRACT

Vision-and-Language Pre-training (VLP) has improved performance on various joint vision-and-language downstream tasks. Current approaches to VLP heavily rely on image feature extraction processes, most of which involve region supervision (e.g., object detection) and the convolutional architecture (e.g., ResNet). Although disregarded in the literature, we find it problematic in terms of both (1) efficiency/speed, that simply extracting input features requires much more computation than the multimodal interaction steps; and (2) expressive power, as it is upper bounded to the expressive power of the visual embedder and its predefined visual vocabulary. In this paper, we present a minimal VLP model, Vision-and-Language Transformer (ViLT), monolithic in the sense that the processing of visual inputs is drastically simplified to just the same convolution-free manner that we process textual inputs. We show that ViLT is up to tens of times faster than previous VLP models, yet with competitive or better downstream task performance. Our code and pre-trained weights are available at https://github.com/dandelin/vilt.

研究の動機と目的

  • 視覚的埋め込みと領域監視の重み付けを低減することを動機づける。
  • 画像をパッチとしてテキストと同じトランスフォーマーで処理する最小限の、畳み込みなしのViLTアーキテクチャを提案する。
  • 効率の向上(実行速度の向上、パラメータ数の削減)を示しつつ、下流の性能を競争力のある水準に保つ。

提案手法

  • 畳み込みバックボーンや領域特徴を用いず、ViT風トランスフォーマへ直接入力されるパッチ投影画像埋め込みを用いた ViLT を導入する。
  • VLPで一般的な二つの事前学習目的:image-text matching (ITM) と masked language modeling (MLM) を使用する。
  • クロスモーダル学習を改善するため MLM に全語彙マスキング(WWM)を適用する。
  • ファインチューニング時に RandAugment による画像拡張を取り入れ、一般化を高める。
  • 任意:IPOTベースの最適輸送による word-patch alignment (WPA) を導入してテキストトークンと視覚パッチを整合させる。

実験結果

リサーチクエスチョン

  • RQ1畳み込み視覚コンポーネントや領域ベースの監督なしに働くVision-and-Languageモデルは、標準的なVLPタスクで依然として良い性能を発揮できるのか。
  • RQ2全語彙マスキングや画像拡張といった事前学習戦略は、ミニマルな ViLT セットアップにおけるクロスモーダル性能にどのような影響を与えるのか。
  • RQ3領域機能やグリッド機能のVLPモデルと比較した場合、畳み込みなし・パッチベースの視覚埋め込みの計算効率の向上はどの程度か。

主な発見

  • ViLTは、領域特徴ベースのモデルより推論を数十倍速く、グリッド特徴モデルより少なくとも4倍速く実行できる一方で、下流の性能は競争力があるかそれ以上を維持する。
  • ViLTは heavy visual embedders を省略していても、VQA、NLVR2、およびリトリーバルのベンチマークで競争力を示す。
  • 全語彙マスキングと画像拡張はViLTの下流性能を有意に向上させる。
  • トレーニングを長く行い、ファインチューニング時に RandAugment を使用することは一般に結果を改善する一方、アブレーションで追加の MRM に似た目的(MPP)を導入しても有益ではなかった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。