[論文レビュー] Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers
Pixel-BERT は、エンドツーエンドの Transformer フレームワークで画像ピクセルとテキストを整合させることにより universal visual-language embedding を学習し、領域ベースの特徴量なしで画像と文のペアで事前学習、VQA、NLVR2、画像-テキスト検索で最先端の結果を達成する。
We propose Pixel-BERT to align image pixels with text by deep multi-modal transformers that jointly learn visual and language embedding in a unified end-to-end framework. We aim to build a more accurate and thorough connection between image pixels and language semantics directly from image and sentence pairs instead of using region-based image features as the most recent vision and language tasks. Our Pixel-BERT which aligns semantic connection in pixel and text level solves the limitation of task-specific visual representation for vision and language tasks. It also relieves the cost of bounding box annotations and overcomes the unbalance between semantic labels in visual task and language semantic. To provide a better representation for down-stream tasks, we pre-train a universal end-to-end model with image and sentence pairs from Visual Genome dataset and MS-COCO dataset. We propose to use a random pixel sampling mechanism to enhance the robustness of visual representation and to apply the Masked Language Model and Image-Text Matching as pre-training tasks. Extensive experiments on downstream tasks with our pre-trained model show that our approach makes the most state-of-the-arts in downstream tasks, including Visual Question Answering (VQA), image-text retrieval, Natural Language for Visual Reasoning for Real (NLVR). Particularly, we boost the performance of a single model in VQA task by 2.17 points compared with SOTA under fair comparison.
研究の動機と目的
- 視覚と語の意味を、領域ベースの特徴量を介さず直接ピクセルレベルで整合させることを動機づける。
- CNN 視覚エンコーダとマルチモーダルトランスフォーマーを組み合わせたエンドツーエンドの Pixel-BERT モデルを提案する。
- ピクセルサンプリング機構を用いて MLM と ITM を活用し、大規模な画像-文データセット上で事前学習を行い、堅牢性を高める。
- 以前の領域ベース手法と比較して、VQA、NLVR2、画像-テキスト検索タスクで性能の向上を示す。
提案手法
- 画像ピクセルを視覚的埋め込みへ変換するため、完全畳み込み CNN バックボーンを使用する。
- 言語を BERT 風の語レベル埋め込みと位置/意味表現で埋め込む。
- 視覚埋め込みと言語埋め込みを単一の Transformer で結合し、モーダル間の相互作用を学習する。
- 視覚入力に条件付けられたテキストに対して Masked Language Modeling (MLM) を用い、Image-Text Matching (ITM) で整合性を学習する形で事前学習する。
- 事前学習中にランダムなピクセルサンプリング機構を導入し、堅牢性を高め、過学習を抑える。
- [CLS] トークンをタスク固有の分類器へ通して下流タスクを微調整する。
実験結果
リサーチクエスチョン
- RQ1テキストと共同で学習したピクセルレベルの視覚表現は、領域ベースの特徴を超えてクロスモーダル理解を向上させるだろうか?
- RQ2ピクセルレベル入力での MLM および ITM の事前学習タスクは、視覚と言語の整合性と下流タスクの性能を向上させるだろうか?
- RQ3ピクセルレベルのクロスモーダル注意は、領域ベースの手法と比べて VQA、NLVR2、および画像-テキスト検索にどのような影響を与えるか?
主な発見
| モデル | test-dev | test-std |
|---|---|---|
| Pixel-BERT (r50) | 71.35 | 71.42 |
| Pixel-BERT (x152) | 74.45 | 74.55 |
- ResNeXt-152 バックボーンを搭載した Pixel-BERT は VQA test-std で 74.55 を達成し、従来のいくつかの手法を上回る。
- Pixel-BERT (x152) は test-dev で 74.45 を記録し、公正な比較の下で VQA の最先端を越える。
- NLVR 2 では Pixel-BERT が test-P で 77.2、dev で 76.5 を達成し、いくつかのペアベースのベースラインを上回る。
- 画像-テキスト検索では Pixel-BERT が Unicoder-VL および UNITER を上回る顕著な利得を示し、MS-COCO および Flickr30K データセットで recall 指標の改善を達成。
- アブレーション研究は、MLM と ITM が下流タスクを大幅に改善し、ピクセルのランダムサンプリングが追加の利得をもたらすことを示し、特に検索タスクで顕著。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。