QUICK REVIEW

[論文レビュー] Unifying Vision-and-Language Tasks via Text Generation

Jaemin Cho, Jie Lei|arXiv (Cornell University)|Feb 4, 2021

Multimodal Machine Learning Applications参考文献 67被引用数 64

ひとこと要約

この論文は VL-T5 と VL-BART を提案し、視覚と言語のタスクを多模态テキスト生成として扱う単一の統一生成フレームワークを提案する。7つのベンチマーク全体でタスク固有モデルと同程度の結果を達成し、一組のパラメータでマルチタスク学習を可能にする。

ABSTRACT

Existing methods for vision-and-language learning typically require designing task-specific architectures and objectives for each task. For example, a multi-label answer classifier for visual question answering, a region scorer for referring expression comprehension, and a language decoder for image captioning, etc. To alleviate these hassles, in this work, we propose a unified framework that learns different tasks in a single architecture with the same language modeling objective, i.e., multimodal conditional text generation, where our models learn to generate labels in text based on the visual and textual inputs. On 7 popular vision-and-language benchmarks, including visual question answering, referring expression comprehension, visual commonsense reasoning, most of which have been previously modeled as discriminative tasks, our generative approach (with a single unified architecture) reaches comparable performance to recent task-specific state-of-the-art vision-and-language models. Moreover, our generative approach shows better generalization ability on questions that have rare answers. Also, we show that our framework allows multi-task learning in a single architecture with a single set of parameters, achieving similar performance to separately optimized single-task models. Our code is publicly available at: https://github.com/j-min/VL-T5

研究の動機と目的

視覚と言語のタスクに対してタスク固有のアーキテクチャを回避する統一フレームワークを動機づける。
視覚入力に条件づけてテキストラベルを生成する事前学習済み言語モデルを活用する。
言語モデリング目的を持つ単一のアーキテクチャが多様なV&Lタスクを扱えることを示す。

提案手法

画像領域埋め込みを組み込んだマルチモーダルエンコーダで事前学習済み言語モデル T5 と BART を拡張する。
画像を固定の領域特徴セットとして表現し、視覚セレンティル・トークンを用いて領域とテキストラベルをリンクする。
すべてのタスクをテキスト生成として定式化し、入力の前にタスク固有のプロンプト（例: vqa:, visual grounding:）を付ける。
マルチモーダル入力からラベルテキストを生成する単一の最大尤度目的関数で訓練する。
COCOと Visual Genome からの 9.18M の画像とテキストペアを、マルチモーダル言語モデリング、VQA、画像とテキストのマッチング、視覚的グラウンディング、グラウンデッドキャプショニングを含む複数の事前学習タスクで事前学習する。
7つの下流タスクで評価し、タスク固有の識別モデルと比較し、マルチタスクファインチューニングを検証する。

実験結果

リサーチクエスチョン

RQ1単一モデルを用いたテキスト生成目的の下で視覚と言語タスクを効果的に統一できるか？
RQ2生成的V&Lモデルは希少解答の質問に対して識別的なベースラインより良く一般化できるか？
RQ3タスク固有のヘッドなしで、単一アーキテクチャが複数の下流V&Lタスクで良好に機能できるか？
RQ4単一のパラメータセットでのマルチタスクファインチューニングは、個別に訓練した単一タスクモデルのパフォーマンスに近づくか、または同等か？

主な発見

VL-T5 と VL-BART は、7つの下流ベンチマークで最近の最先端のタスク固有V&Lモデルと同程度の性能を達成する。
生成モデルは希少解答を含む質問で識別的なベースラインより一般化能力が高い。
単一のアーキテクチャと一組の重みで、複数タスクにわたり良好に機能し、個別に最適化された単一タスクモデルと同等の結果を達成する。
データセット固有の接頭辞はVQAとGQAには厳密には必須ではなく、単一の接頭辞が場合によって性能向上をもたらす。
このフレームワークはオープンエンドの NL 回答を可能にし、VQA、NLVR2、RefCOCOg、VCR、COCO キャプショニング、Multi30K 翻訳などのタスクで競争力のある性能を維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。