QUICK REVIEW

[論文レビュー] VisualGPT: Data-efficient Image Captioning by Balancing Visual Input and Linguistic Knowledge from Pretraining

Jun Chen, Han Guo|arXiv (Cornell University)|Feb 20, 2021

Multimodal Machine Learning Applications参考文献 21被引用数 11

ひとこと要約

VisualGPTは、大規模言語モデル（LM）からの事前学習済み言語知識と視覚的入力をバランスさせるデータ効率の良い画像キャプション生成モデルを提案する。自己再生 Attention 機構とスパース活性化ユニットを導入することで、MSCOCO および Conceptual Captions で訓練データの 0.1% のみを用いて最先端の性能を達成し、ベースラインを最大 10.8% CIDEr で上回った。

ABSTRACT

In this paper, we aim to improve the data efficiency of image captioning. We propose VisualGPT, a data-efficient image captioning model that leverages the linguistic knowledge from a large pretrained language model (LM). A crucial challenge is to balance between the use of visual information in the image and prior linguistic knowledge acquired from pretraining.We designed a novel self-resurrecting encoder-decoder attention mechanism to quickly adapt the pretrained LM as the language decoder on a small amount of in-domain training data. The pro-posed self-resurrecting activation unit produces sparse activations but is not susceptible to zero gradients. When trained on 0.1%, 0.5% and 1% of MSCOCO and Conceptual Captions, the proposed model, VisualGPT, surpasses strong image captioning baselines. VisualGPT outperforms the best baseline model by up to 10.8% CIDEr on MS COCO and up to 5.4% CIDEr on Conceptual Captions.We also perform a series of ablation studies to quantify the utility of each system component. To the best of our knowledge, this is the first work that improves data efficiency of image captioning by utilizing LM pretrained on unimodal data. Our code is available at: this https URL.

研究の動機と目的

ドメイン内訓練データのわずかな割合しか利用できない状況において、画像キャプション生成のデータ効率を向上させること。
事前学習済み言語モデルからの事前知識と画像からの視覚的情報を最適にバランスさせる課題に対処すること。
ドメイン内データが最小限である状況でも、大規模言語モデルをデコーダーとして効果的に微調整できるようにすること。
スパース活性化と勾配消失の問題に直面してもモデルの性能を維持できるメカニズムを設計すること。

提案手法

ドメイン内データが極めて少ない状況でも、事前学習済み言語モデルをデコーダーとして適応可能な自己再生エンコーダーデコーダー Attention 機構を導入すること。
バックプロパゲーション中にゼロ勾配問題を回避するスパース活性化を実現する自己再生活性化ユニットを実装すること。
単一モodalのテキストデータで事前学習された言語モデルを活用し、キャプション生成システムに強い言語的事前知識を注入すること。
デコーディング段階で、ビジョンエンコーダーからの視覚的特徴と言語モデルの内部知識をバランスさせることで一般化性能を向上させること。
MSCOCO や Conceptual Captions のような小規模な画像キャプションデータセット上で、モデル全体をエンドツーエンドに微調整すること。
視覚的および言語的信号の重要度に応じて動的に Attention 重みを調整する、新しい Attention 機構を用いること。

実験結果

リサーチクエスチョン

RQ1ドメイン内微調整データが極めて少ない状況でも、事前学習済み言語モデルを画像キャプションのデコーダーとして効果的に適応できるか？
RQ2画像生成時に視覚的情報と言語的知識を最適にバランスさせることで、データ効率を向上させられるか？
RQ3自己再生活性化ユニットは、低データ環境下での訓練安定性と性能向上に寄与するか？
RQ4単一モダリティの事前学習済み言語モデルを活用することで、小規模データセット上でのキャプション生成性能がどの程度向上するか？

主な発見

MSCOCO データセットで、訓練データの 0.1% のみを用いても、VisualGPT は強力なベースラインを最大 10.8% CIDEr で上回った。
Conceptual Captions データセットでは、訓練データの 0.1% のみを用いても、VisualGPT は最良のベースラインに対して 5.4% の CIDEr 向上を達成した。
0.5% および 1% のデータスケールでも、モデルは高い性能を維持しており、一貫したデータ効率の向上が確認された。
アブレーションスタディの結果、自己再生 Attention 機構と言語的知識の注入の両方が性能向上に顕著に寄与していることが確認された。
自己再生活性化ユニットにより、勾配消失が防止され、スパース活性化を伴う安定な訓練が可能になった。
VisualGPT は、単一モダリティのテキストで事前学習された言語モデルを活用することで、データ効率の良い画像キャプション生成において、最先端の結果を達成した最初の手法である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。