[論文レビュー] UniAdapter: Unified Parameter-Efficient Transfer Learning for Cross-modal Modeling
UniAdapter は unimodal および multimodal アダプターを統合し、パラメータ効率の高いクロスモーダル転送を vision-language モデルで実現。 tunable parameters が 1.0%–2.0% に留まるだけで、六つのクロスモーダルベンチマークで完全微調整と競合する、あるいはそれを上回る結果を達成する。
Large-scale vision-language pre-trained models have shown promising transferability to various downstream tasks. As the size of these foundation models and the number of downstream tasks grow, the standard full fine-tuning paradigm becomes unsustainable due to heavy computational and storage costs. This paper proposes UniAdapter, which unifies unimodal and multimodal adapters for parameter-efficient cross-modal adaptation on pre-trained vision-language models. Specifically, adapters are distributed to different modalities and their interactions, with the total number of tunable parameters reduced by partial weight sharing. The unified and knowledge-sharing design enables powerful cross-modal representations that can benefit various downstream tasks, requiring only 1.0%-2.0% tunable parameters of the pre-trained model. Extensive experiments on 6 cross-modal downstream benchmarks (including video-text retrieval, image-text retrieval, VideoQA, and VQA) show that in most cases, UniAdapter not only outperforms the state-of-the-arts, but even beats the full fine-tuning strategy. Particularly, on the MSRVTT retrieval task, UniAdapter achieves 49.7% recall@1 with 2.2% model parameters, outperforming the latest competitors by 2.0%. The code and models are available at https://github.com/RERV/UniAdapter.
研究の動機と目的
- 大規模な vision-language モデルをフルファインチューニングなしで多様なクロスモーダルタスクへ効率的に転移させる動機づけ。
- Knowledge sharing を伴う uniModal と multiModal アダプターを統合する UniAdapter を提案。
- 言語クエリの完全性を保持し、クロスモーダル モデリングにおける動画フレームノイズを扱う。
- 複数のクロスモーダルベンチマークで高い性能とパラメータ効率を示す。
提案手法
- モダリティ間で共有された統一のダウンプロジェクション層とモダリティ固有のアッププロジェクション層を備えた UniAdapter を導入。
- クロスアテンション中にテキストクエリ情報を保持するための Query-residual Adaption を組み込む。
- 追加パラメータなしで動画タスクのフレームトークンの重み付けを行うパラメーターフリーの Frame-aware Attention を適用。
- モダリティ間でダウンプロジェクションの重みを共有し、アッププロジェクションをモダリティ固有のままクロスモーダル知識転送を可能にする。
- frozen BLIP ベースの vision-language バックボーン内の視覚/テキスト/クロスモーダルエンコーダに UniAdapters を取り付ける。
- video-text retrieval や image-text retrieval、VQA/VQA関連ベンチマークを含む六つのクロスモーダルタスクで評価する。
実験結果
リサーチクエスチョン
- RQ1 unified, parameter-efficient adapter framework は画像および動画モダリティのリトリーバルと推論を含む多様なクロスモーダル下流タスクをサポートできるか?
- RQ2 アダプターコンポーネントの知識共有は tunable parameters を削減しつつクロスモーダル転送を改善するか?
- RQ3 クエリ残差とフレーム認識型アテンションは動画言語タスクのクロスモーダル性能にどのような影響を及ぼすか?
主な発見
- UniAdapter は Frozen backbone と比較して 1.0%–2.0% の tunable parameters のみで競合的またはそれを上回る結果を達成。
- マルチモーダルエンコーダへアダプターを挿入する方が、単独のビジュアルまたはテキストアダプターよりも強い改善をもたらす。
- モダリティ間でダウンプロジェクションの重み共有を行い、モダリティ固有のアッププロジェクションを維持しつつ tunable parameters を削減。
- クエリ残差適応とパラメーターフリーのフレーム認識アテンションは、追加パラメータを増やさずにクロスモーダル性能をさらに向上。
- MSRVTT retrieval において、2.2% の tunable parameters を持つ UniAdapter は 49.7% R@1 を達成し、いくつかの競合他社を上回り、一部のフルファインチューニングベースラインを凌駕。
- 六つのベンチマーク(video-text retrieval、image-text retrieval、VideoQA、VQA)全体で、UniAdapter は従来のパラメータ効率的方法を一般的に上回り、多くのケースでフルファインチューニングと同等以上を達成。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。