[論文レビュー] Multimodality Helps Unimodality: Cross-Modal Few-Shot Learning with Multimodal Models
論文は、マルチモーダル・ファウンデーションモデル(例:CLIP、AudioCLIP)を用いたクロスモーダル適応が、他のモダリティを追加の訓練サンプルとして扱うことで、単一モーダルの少数-shot分類を改善し、単純な線形プローブで最先端の結果を達成し、視聴覚シナリオへ拡張できることを示す。
The ability to quickly learn a new task with minimal instruction - known as few-shot learning - is a central aspect of intelligent agents. Classical few-shot benchmarks make use of few-shot samples from a single modality, but such samples may not be sufficient to characterize an entire concept class. In contrast, humans use cross-modal information to learn new concepts efficiently. In this work, we demonstrate that one can indeed build a better ${\bf visual}$ dog classifier by ${\bf read}$ing about dogs and ${\bf listen}$ing to them bark. To do so, we exploit the fact that recent multimodal foundation models such as CLIP learn cross-modal encoders that map different modalities to the same representation space. Specifically, we propose a simple strategy for ${\bf cross-modal}$ ${\bf adaptation}$: we treat examples from different modalities as additional few-shot examples. For example, by simply repurposing class names as an additional training sample, we trivially turn any n-shot learning problem into a (n+1)-shot problem. This allows us to produce SOTA results with embarrassingly simple linear classifiers. We show that our approach can be combined with existing methods such as prefix tuning, adapters, and classifier ensembling. Finally, to explore other modalities beyond vision and language, we construct the first (to our knowledge) audiovisual few-shot benchmark and use cross-modal training to improve the performance of both image and audio classification.
研究の動機と目的
- マルチモーダル信号が、クロスモーダル情報を活用することで少数-shot 学習の曖昧さの解決に寄与することを動機づける。
- 他のモダリティを追加の訓練サンプルとして用いる、軽量なクロスモーダル適応フレームワークを提案する。
- クロスモーダル適応が、複数のデータセットにおいて最先端の uni-modal 適応法を超えることを示す。
- 視覚言語を超え、音声・映像オーディオ設定へもアプローチを拡張することを示す。
提案手法
- モダリティ固有のエンコーダを用いて共通埋め込み空間へ写像するクロスモーダル学習を定式化する。
- 視覚特徴と補助モダリティ特徴の両方を入力として同じ分類器を用いる線形分類器を訓練する。
- クラスラベル(テキスト)を追加のワンショット・サンプルとして扱い、n-shot 問題を (n+1)-shot 問題へ変換する。
- 学習したクロスモーダル重みを用いて、どのモダリティのテストサンプルにも対応できる推論を提供する。
- Representer Theorem を用いて、モダリティごとのアンサンブルとして学習した分類器を分析する。
- CLIP と AudioCLIP を用いた視覚言語適応を実験し、11 データセットにわたる固定の少数-shot 評価プロトコルに従う。
![Figure 2 : Adding additional modalities helps few-shot learning . Adding textual labels to a 2-shot cat-vs-dog classification task leads to better test performance (by turning the problem into a 3-shot cross-modal task!). We visualize cross-modal CLIP [ 21 ] features (projection to 2D with principal](https://ar5iv.labs.arxiv.org/html/2301.06267/assets/x2.png)
実験結果
リサーチクエスチョン
- RQ1追加モダリティ(テキスト、音声)は視覚の少数-shot 分類を改善する訓練サンプルとして機能できるか。
- RQ2クロスモーダル適応は、異なるデータセットで uni-modal のファインチューニングやプロービング法よりも改善をもたらすか。
- RQ3クロスモーダル学習は、 prompting や adapters のような既存の適応技術と直交的で補完的か。
- RQ4アプローチは視覚-音声のベンチマークへ拡張可能で、画像と音声の分類の両方を改善できるか。
主な発見
- クロスモーダル適応は、単純な線形プローブで CoOp プロトコルのもと11データセットで最先端の結果を達成。
- テキストラベルを訓練サンプルとして組み込むと、1-shot のタスクをより効果的な2-shotまたは3-shotの状況へ変換し、時には高shotの uni-modal 手法を上回る。
- クロスモーダル適応は、 uni-modal のベースラインや他の適応手法( prompting、adapters、ロバストファインチューニング)に対して、特にデータ不足の状況で一貫した改善を提供。
- モダリティ固有のエンコーダの部分的ファインチューニングにより性能がさらに向上し、いくつかの設定で新しい SOTA を達成。
- AudioCLIP を用いた音声への拡張と、画像-音声ベンチマークの構築により、別モダリティからのワンショットサンプルを追加すると、多くのケースで画像と音声の分類の両方が改善。
- テキストベースの拡張(クラス名をプロンプトとして使用)は依然有効であり、画像拡張と組み合わせて頑健性を高めることができる。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。