[論文レビュー] CLiMB: A Continual Learning Benchmark for Vision-and-Language Tasks
CLiMB は vision-and-language tasks の継続学習ベンチマークを導入し、既存の CL 手法は忘却を緩和するがクロスタスク転移を可能にせず、低ショットの下流転移は上流 CL によって改善されないことを示す。
Current state-of-the-art vision-and-language models are evaluated on tasks either individually or in a multi-task setting, overlooking the challenges of continually learning (CL) tasks as they arrive. Existing CL benchmarks have facilitated research on task adaptation and mitigating "catastrophic forgetting", but are limited to vision-only and language-only tasks. We present CLiMB, a benchmark to study the challenge of learning multimodal tasks in a CL setting, and to systematically evaluate how upstream continual learning can rapidly generalize to new multimodal and unimodal tasks. CLiMB includes implementations of several CL algorithms and a modified Vision-Language Transformer (ViLT) model that can be deployed on both multimodal and unimodal tasks. We find that common CL methods can help mitigate forgetting during multimodal task learning, but do not enable cross-task knowledge transfer. We envision that CLiMB will facilitate research on a new class of CL algorithms for this challenging multimodal setting.
研究の動機と目的
- 単一の汎用モデルを用いて、 vision-and-language タスクの系列に対する継続学習を研究する。
- 低ショット設定で、上流の継続学習が下流のマルチモーダルおよび単一モーダルタスクへどのように転移するかを評価する。
- 既存の継続学習アルゴリズムが忘却を緩和し、マルチモーダル文脈でのクロス・タスク知識転移を可能にするかを評価する。
- マルチモーダル継続学習手法の開発を促進する拡張可能なベンチマークを提供する。)
提案手法
- マルチモーダルおよび単一モーダルタスクに展開可能な Vision-Language Transformer (ViLT) をバックボーンとして使用する。
- ビジョンと言語タスクの系列(上流フェーズ)で訓練し、いくつかの CL アルゴリズムで忘却と知識転移を評価する。
- 各上流タスクの後、下流の低ショット転移をマルチモーダルおよび単一モーダルのタスクの両方に対して評価する。
- CL アルゴリズムを実装・比較する:Sequential Fine-Tuning、Frozen Encoder、Frozen Bottom-K、Experience Replay (ER)、Elastic Weight Consolidation (EWC)、および Adapters。
- 上流の知識転移、忘却、および下流の低ショット転移を軸とした指標を定義する(定義は表2)。
- タスクは four vision-language tasks、five language tasks、and four vision tasks にまたがる分類問題として扱い;実験では上流タスクの順序を固定する。
実験結果
リサーチクエスチョン
- RQ1一般的な継続学習手法は、vision-and-language タスクの系列における忘却を緩和するか?
- RQ2これらの手法は、vision-and-language タスク間または単一モーダルタスクへのクロス・タスク知識転移を可能にするか?
- RQ3上流の継続学習は、下流の低ショット転送をマルチモーダルおよび単一モーダルタスクに対して改善するか?
- RQ4上流タスクの順序(例:VCR、NLVR2、SNLI-VE、VQAv2 など)は、忘却と知識転移にどのように影響するか?
主な発見
- 既存の継続学習手法は忘却を緩和できるが、一般的には新しい vision-language タスクへの正の知識転移を提供しない。多くのアプローチは最初のタスクへの直接微調整と同等か、それより劣る。
- ほとんどの CL 手法で上流のタスク間の知識転移はほぼゼロ。Adapters は全微調整と同等の性能を示すが、クロス・タスク転移はない。
- 下流の低ショット転送は、上流のCLによってマルチモーダルおよび単一モーダルタスクのいずれも改善されない。マルチモーダル設定では、低ショット転送は通常ネガティブであり、Frozen Bottom-9 が最小の劣化を与える。
- タスク順序は重要:VCR での訓練は、その後のタスクへの知識転移を減少させ、忘却を増加させる可能性がある。視覚入力のドメインシフト効果を示している。
- ViLT に基づく言語タスクは、言語のみの下流タスクに対してより強い言語事前知識(例:VAuLT)から恩恵を受ける一方、マルチモーダル CL は言語転移を害する傾向がある。
- Adapters は忘却を効果的に緩和し、各タスクあたり約3-4% のパラメータを追加するが、現在のアダプターはマルチモーダル設定でタスク間の知識を共有しない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。