QUICK REVIEW

[論文レビュー] VinVL: Making Visual Representations Matter in Vision-Language Models

Pengchuan Zhang, Xiujun Li|arXiv (Cornell University)|Jan 2, 2021

Multimodal Machine Learning Applications被引用数 79

ひとこと要約

この論文では、広範な公開データセットを用いて事前学習された、より大規模で洗練されたオブジェクト検出モデルであるVinVLを提案する。このモデルは、視覚言語（VL）タスクのためのより豊かな視覚的表現を生成することを目的としている。これらの向上した特徴量をTransformerベースのVL統合モデル（OSCAR+）に供給することで、7つの公開ベンチマークで最先端の性能を達成し、高品質な視覚的特徴量がVLモデルの性能を顕著に向上させることを示している。

ABSTRACT

This paper presents a detailed study of improving visual representations for vision language (VL)tasks and develops an improved object detection model to provide object-centric representations of images. Compared to the most widely used bottom-up and top-down model [2], the new model is bigger,better-designed for VL tasks, and pre-trained on much larger training corpora that combine multiple public annotated object detection datasets. Therefore, it can generate representations of a richer collection of visual objects and concepts. While previous VL research focuses mainly on improving the vision-language fusion model and leaves the object detection model improvement untouched, we show that visual features matter significantly in VL models. In our experiments we feed the visual features generated by the new object detection model into a Transformer-based VL fusion model OSCAR[21],and utilize an improved approach OSCAR+ to pre-train the VL model and fine-tune it on a wide range of downstream VL tasks. Our results show that the new visual features significantly improve the performance across all VL tasks, creating new state-of-the-art results on seven public benchmarks. We will release the new object detection model to public.

研究の動機と目的

より包括的なオブジェクト検出モデルの開発により、視覚言語タスクのための視覚的表現を向上させること。
先行研究が統合モデルに注目する一方で、視覚的特徴抽出の改善を軽視するというギャップを是正すること。
より大規模で多様なアノテーション付きオブジェクト検出データセットのコロナスを統合して、オブジェクト検出モデルを事前学習し、視覚的概念のカバレッジを豊かにすること。
より良い視覚的特徴量そのものが、下流のVLモデル性能を顕著に向上させることを実証すること。

提案手法

視覚言語タスクに最適化された、より大規模で頑健なオブジェクト検出モデルの設計および訓練。
複数の公開オブジェクト検出データセットのコロナスを統合してオブジェクト検出器を事前学習し、視覚的表現の質を向上させること。
新規検出器から得られるオブジェクト中心の視覚的特徴量を、TransformerベースのVL統合モデル（OSCAR+）に供給すること。
多様な下流VLタスクで、改善された事前学習および微調整戦略（OSCAR+）を用いてVLモデルをファインチューニングすること。
向上した視覚的特徴量を活用して、複数の視覚言語ベンチマークにおける性能を向上させること。

実験結果

リサーチクエスチョン

RQ1より大規模で洗練されたオブジェクト検出モデルは、視覚言語タスクのための視覚的表現を顕著に改善できるか？
RQ2視覚的特徴量の質を向上させることは、統合モデルの改善に依存せず、VLモデル性能に測定可能な向上をもたらすか？
RQ3大規模事前学習によるより豊かな視覚的表現は、下流のVLベンチマーク結果にどの程度の向上をもたらすか？
RQ4統一された視覚的特徴抽出器は、多様な視覚言語タスクで最先端の性能を達成できるか？

主な発見

VinVLオブジェクト検出器が生成する新しい視覚的特徴量は、評価されたすべての視覚言語タスクで性能を顕著に向上させている。
このアプローチは、7つの公開視覚言語ベンチマークで新たな最先端の結果を達成し、一貫した向上を示している。
その向上は、主に大規模事前学習による視覚的表現の質と多様性の向上に起因している。
結果は、視覚的特徴量の質がVLモデル性能において極めて重要な要因であることを裏付けているが、先行研究ではしばしば軽視されていた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。