[論文レビュー] X-LXMERT: Paint, Caption and Answer Questions with Multi-Modal Transformers
本論文では、X-LXMERTを紹介する。これはLXMERTを拡張した統合型マルチモーダルトランスフォーマーであり、視覚的特徴の離散化、多様な比率にわたる均一なマスキング、事前学習データの生成タスクへの適合という訓練目的の見直しにより、テキストキャプションから高品質で意味的に意味のある画像を生成する。このモデルは、専用の生成モデルと同等の最先端の画像生成品質を達成するとともに、視覚的質問応答(VQA)およびキャプション生成の性能を保持している。
Mirroring the success of masked language models, vision-and-language counterparts like ViLBERT, LXMERT and UNITER have achieved state of the art performance on a variety of multimodal discriminative tasks like visual question answering and visual grounding. Recent work has also successfully adapted such models towards the generative task of image captioning. This begs the question: Can these models go the other way and generate images from pieces of text? Our analysis of a popular representative from this model family - LXMERT - finds that it is unable to generate rich and semantically meaningful imagery with its current training setup. We introduce X-LXMERT, an extension to LXMERT with training refinements including: discretizing visual representations, using uniform masking with a large range of masking ratios and aligning the right pre-training datasets to the right objectives which enables it to paint. X-LXMERT's image generation capabilities rival state of the art generative models while its question answering and captioning abilities remains comparable to LXMERT. Finally, we demonstrate the generality of these training refinements by adding image generation capabilities into UNITER to produce X-UNITER.
研究の動機と目的
- 強力な視覚・言語BERTスタイルのモデル(例:LXMERT)がテキストプロンプトから意味的な画像を生成できるかどうかを調査すること。
- 既存モデルにおける画像生成性能の低さの根本的原因を特定すること、特に回帰ベースの視覚的特徴予測の使用が原因であるかどうかを特定すること。
- 識別的性能に悪影響を及げることなく、強力な画像生成能力を実現するための訓練の見直しを構築すること。
- これらの見直しを、UniFormerのような他のマルチモーダルアーキテクチャにも一般化できることを示すこと。
- 質問に答えたり、テキストからキャプションを生成したり、テキストから画像を合成したりできる統合型モデルを構築すること。
提案手法
- 視覚入力表現を単純化するため、オブジェクト検出のバウンディングボックスを固定グリッド特徴に置き換える。
- 視覚的特徴を有限のクラスタに離散化することで、回帰ではなく分類ベースの予測が可能になるようにする。
- 事前学習中に幅広いマスキング比(10%~90%)にわたる均一なマスキングを適用し、完全な画像生成への一般化性能を向上させる。
- 画像生成の目的に合わせて事前学習データを再構成し、マスクされた視覚的特徴予測を主な目的とする。
- モデルの予測から視覚的特徴を自己回帰的にサンプリングする、拡散ベースの画像生成器を統合する。
- 初期プレフィックスに条件づけられたGibbsサンプリングを用いて、多様で整合性のあるキャプションをモデルのテキスト出力から生成する。
実験結果
リサーチクエスチョン
- RQ1視覚・言語BERTモデル(例:LXMERT)は、テキスト記述から意味的に意味のある画像を生成できるか?
- RQ2識別的タスクで優れた性能を示すにもかかわらず、なぜ既存のマルチモーダルモデルは画像生成に失敗するのか?
- RQ3マルチモーダルトランスフォーマーに信頼性の高い画像生成能力を実現するために、どのような訓練の見直しが必要か?
- RQ4これらの見直しは、異なるマルチモーダルアーキテクチャにどの程度一般化可能か?
- RQ5拡張されたモデルの性能は、画像品質および意味的整合性の観点から、専用の画像生成モデルと比べてどの程度か?
主な発見
- 元の形のLXMERTは、回帰ベースの視覚的特徴予測のため、一貫性のないもしくは意味のない出力を生成し、ほとんど理解不能な出力が得られる。
- X-LXMERTは、画像生成においてインセプションスコア(IS)22.7、FIDスコア(FID)37.4を達成し、最先端の生成モデルと同等の性能を示している。
- 視覚的表現の離散化と均一なマスキングは、高品質な画像生成に不可欠であり、欠落した場合のアブレーションではISが1.5、FIDが304.4に低下する。
- 視覚的質問応答(VQA)においても、NLVR2での精度がLXMERTと比較して約2%の低下にとどまり、識別的タスクへの悪影響は最小限に抑えられている。
- 同じ訓練の見直しがUniFormerに対しても成功し、X-UniterではIS 20.1、FID 51.4を達成しており、広範な適用可能性が示された。
- 中間段階での自己回帰的サンプリングによる画像生成は、明確な進行を示しており、まず顕著なオブジェクトが現れ、その後に詳細や背景が追加される。これは構造的な推論を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。