QUICK REVIEW

[論文レビュー] 12-in-1: Multi-Task Vision and Language Representation Learning

Jiasen Lu, Vedanuj Goswami|arXiv (Cornell University)|Dec 5, 2019

Multimodal Machine Learning Applications参考文献 62被引用数 36

ひとこと要約

本論文は、4つのタスク群に跨る12のvision-and-languageデータセットで共同学習された単一の ViLBERT ベースのモデルを提示し、パラメータを削減しながら、下流の単一タスク微調整のための効果的なマルチタスク事前学習を可能にする一方で、競争力のあるまたは優れた結果を達成します。

ABSTRACT

Much of vision-and-language research focuses on a small but diverse set of independent tasks and supporting datasets often studied in isolation; however, the visually-grounded language understanding skills required for success at these tasks overlap significantly. In this work, we investigate these relationships between vision-and-language tasks by developing a large-scale, multi-task training regime. Our approach culminates in a single model on 12 datasets from four broad categories of task including visual question answering, caption-based image retrieval, grounding referring expressions, and multi-modal verification. Compared to independently trained single-task models, this represents a reduction from approximately 3 billion parameters to 270 million while simultaneously improving performance by 2.05 points on average across tasks. We use our multi-task framework to perform in-depth analysis of the effect of joint training diverse tasks. Further, we show that finetuning task-specific models from our single multi-task model can lead to further improvements, achieving performance at or above the state-of-the-art.

研究の動機と目的

多様な vision-and-language タスクに対する統一的学習を促進し、共有されたグラウンディングと推論能力を活用するための、多様な vision-and-language タスクの統一的学習を促進する。
データセットのサイズと難易度の差を扱える、スケーラブルなマルチタスク訓練手法を開発する。
結合訓練が、独立した単一タスクモデルと比べて競争力のあるまたはそれ以上の性能を示すと同時に、パラメータを大幅に削減することを実証する。
マルチタスク事前学習が下流の単一タスク微調整に有益であり、いくつかのタスクで最先端の結果を達成できることを示す。

提案手法

12データセットを4つのタスク群にまたがる、タスク固有のヘッドを備えた共有トランクとしてViLBERTを採用する。
マルチタスク訓練中に現在のタスクを条件づけるため、データセットごとにタスクトークンを導入する。
サイズと難易度の異なるタスク間の訓練を管理するため、動的停止と再開（DSG）を備えたラウンドロビンバッチサンプリング方式を使用する。
Conceptual Captionで事前学習を行い、ネガティブサンプルの漏洩とノイズを低減する改善されたマスキング戦略を採用する。
個別タスクでマルチタスクモデルを微調整し、完全にタスク固有のベースラインと比較する。
設計選択を検証するため、タスクトークンの粒度と訓練スケジュールのアブレーションを提供する。

実験結果

リサーチクエスチョン

RQ1複数のvision-and-languageタスクで学習した単一のモデルが、独立して学習したタスク固有モデルを上回るか、同等に達成できるか？
RQ2結合マルチタスク訓練は、下流の単一タスクモデルの事前学習ステップとして利益をもたらすか？
RQ3V&Lタスク間のポジティブな転移またはネガティブな転移に影響を与えるデータレベルおよびタスクレベルの要因は何か？
RQ4データセットサイズの差を扱い、過学習や忘却を防ぐために、マルチタスク訓練をどのようにスケジュールすべきか？
RQ5タスクトークンの設計は、タスク間の一般化とグラウンディングの一貫性に影響を与えるか？

主な発見

12データセットで学習した単一のモデルは、12タスク中11タスクでタスク固有の最新手法を上回るまたは一致し、平均スコアを2.05ポイント向上させる一方で、パラメータを ~3B から 270M に削減します。
マルチタスク事前学習を経た単一タスク微調整は大きな向上をもたらし、いくつかのタスクで最先端を達成する。
マルチタスク訓練は効果的な事前学習として機能し、微調整時により高い grounding-aware 指標で示されるように、タスク間のグラウンディング一貫性を改善します。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。