QUICK REVIEW

[論文レビュー] Multimodal Prompting with Missing Modalities for Visual Recognition

Yi-Lun Lee, Yi‐Hsuan Tsai|arXiv (Cornell University)|Mar 6, 2023

Multimodal Machine Learning Applications被引用数 10

ひとこと要約

この論文は、訓練時およびテスト時にさまざまな欠損モダリティ状況に対処するための欠損対応プロンプトをマルチモーダル変換器に導入し、フルファインチューニングを回避しつつ、はるかに少ない学習可能パラメータで堅牢性を高める。

ABSTRACT

In this paper, we tackle two challenges in multimodal learning for visual recognition: 1) when missing-modality occurs either during training or testing in real-world situations; and 2) when the computation resources are not available to finetune on heavy transformer models. To this end, we propose to utilize prompt learning and mitigate the above two challenges together. Specifically, our modality-missing-aware prompts can be plugged into multimodal transformers to handle general missing-modality cases, while only requiring less than 1% learnable parameters compared to training the entire model. We further explore the effect of different prompt configurations and analyze the robustness to missing modality. Extensive experiments are conducted to show the effectiveness of our prompt learning framework that improves the performance under various missing-modality cases, while alleviating the requirement of heavy model re-training. Code is available.

研究の動機と目的

訓練時またはテスト時にモダリティが欠如する可能性がある場合に、ロバストなマルチモーダル学習を動機付ける。
大規模マルチモーダル変換器のフルファインチューニングを避けることで計算コストを削減する。
特定の欠損モダリティ状況に基づいてモデルの予測を条件付けするプロンプトを提案する。
多様なマルチモーダルデータセットにわたって、入力レベルと注意機構レベルのプロンプト設計を評価する。

提案手法

欠損モダリティの状況をサンプルごとおよびフェーズ（訓練/テスト）ごとに動的に定義する。
事前学習済みのマルチモーダル変換器（ViLT）に学習可能な欠損対応プロンプトを接続し、バックボーンを固定する。
2つのプロンプト設計を検討する：入力レベル prompting と注意レベル prompting；選択されたトランスフォーマーレイヤーにプロンプトを付与する。
プロンプト、プール層、分類器のみを訓練する。バックボーンは固定して学習可能パラメータをモデル全体の <1% 未満に抑える。
欠損モダリティにはダミー入力を用い、プロンプトを結合または経路案内して予測を導く。
欠損率設定が異なるデータセットでの性能を報告し、堅牢性と効率を評価する。

実験結果

リサーチクエスチョン

RQ1欠損対応プロンプトは、訓練時およびテスト時にモダリティが不完全に観測される場合でも、堅牢なマルチモーダル認識を可能にするか。
RQ2入力レベルと注意レベルのプロンプト設計は、さまざまな欠損モダリティ状況で有効性と安定性の点でどのように比較されるか。
RQ3性能と効率性のための、プロンプトの長さ、レイヤーの配置、促されたレイヤーの数のトレードオフは何か。

主な発見

注意レベル prompting は、欠損モダリティの状況全般でベースラインの堅牢性を一貫して向上させる。
入力レベル prompting はしばしば最良の性能を示すが、データセットの特性に敏感な場合がある。一方、注意レベル prompting はより安定性を提供する。
本手法は、113Mパラメータのバックボーンに対して追加パラメータが0.2%未満（約221k）であり、フルモデルファインチューニングなしでも競争力のある結果を達成する。
早期のトランスフォーマーレイヤーから始まるプロンプト層の重ねわせは、後半レイヤーだけを prompting する場合より一般に影響が大きい。
欠損モダリティによる性能低下が緩和され、MM-IMDb、UPMC Food-101、Hateful Memesデータセットで堅牢性が示されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。