QUICK REVIEW

[論文レビュー] On the Out-Of-Distribution Generalization of Multimodal Large Language Models

Xingxuan Zhang, Jiansheng Li|arXiv (Cornell University)|Feb 9, 2024

Topic Modeling被引用数 6

ひとこと要約

この論文は、14個のMLLMを対象にゼロショットとICLベースの一般化をOOD、分布シフト、ドメイン特有タスクで体系的に評価し、マッピング欠陥を主要な障害として特定し、文脈内学習が特定条件下でOOD性能を大幅に向上させ得ることを示しています。

ABSTRACT

We investigate the generalization boundaries of current Multimodal Large Language Models (MLLMs) via comprehensive evaluation under out-of-distribution scenarios and domain-specific tasks. We evaluate their zero-shot generalization across synthetic images, real-world distributional shifts, and specialized datasets like medical and molecular imagery. Empirical results indicate that MLLMs struggle with generalization beyond common training domains, limiting their direct application without adaptation. To understand the cause of unreliable performance, we analyze three hypotheses: semantic misinterpretation, visual feature extraction insufficiency, and mapping deficiency. Results identify mapping deficiency as the primary hurdle. To address this problem, we show that in-context learning (ICL) can significantly enhance MLLMs' generalization, opening new avenues for overcoming generalization barriers. We further explore the robustness of ICL under distribution shifts and show its vulnerability to domain shifts, label shifts, and spurious correlation shifts between in-context examples and test data.

研究の動機と目的

合成データ、現実世界の分布シフト、医療・分子などのドメイン特有データを含むアウトオブディストリビューション環境における現行MLLMのゼロショット一般化を評価する。
意味的誤解、視覚特徴抽出、マッピング欠陥のうち、信頼性の低いOOD性能の根本原因を特定する。
分布シフト下でOOD一般化と頑健性を改善するための文脈内学習（ICL）の有効性と限界を評価する。

提案手法

分布シフトとドメイン特有タスクを含む20データセットで14のMLLMを評価する。
意味的誤解、視覚特徴抽出の不十分さ、マッピング欠陥という3つの仮説に基づく誤分析を実施する。
線形検出を用いたCLIP特徴を用いて視覚特徴抽出をボトルネックとして評価する。
OOD一般化タスクに対するCLIPモデルサイズのスケーリング効果を分析する。
ターゲット分布とバイアス分布からの文脈内例を与えてICLを調査し、性能向上を測定する。
ドメインシフト、ラベルシフト、虚偽相関シフトの下でICLを検討し、ICEベースのガイダンスの頑健性を評価する。

実験結果

リサーチクエスチョン

RQ1現在のMLLMは適応なしでOODおよびドメイン特有データへゼロショットでどの程度一般化できるか？
RQ2意味的解釈、視覚特徴抽出、マッピング欠陥のOOD一般化への相対的影響はどれか？
RQ3文脈内学習（ICE）はOOD一般化を改善できるか、ドメイン、ラベル、虚偽相関シフト下での限界は何か？
RQ4多モーダル設定におけるモデルサイズとスケーリングはOOD一般化にどう影響するか？
RQ5ICLが失敗する条件は何か、特に分子活性予測のような高度にドメイン特有タスクにおいては？

主な発見

データセット	CMNIST	RMNIST	DomainNet	Fmow	iWildCam	NICO++	OfficeHome	PACS	SVIRO	TerraInc	VLCS	Average
LLaVA	0.622	0.696	0.480	0.148	0.054	0.849	0.736	0.980	0.874	0.668	0.975	0.644
QWen-VL	0.198	0.212	0.365	0.038	0.000	0.763	0.635	0.964	0.808	0.378	0.943	0.482
CogVLM	0.117	0.317	0.081	0.013	0.000	0.066	0.684	0.983	0.930	0.656	0.965	0.437
mPLUG-owl	0.356	0.411	0.412	0.020	0.003	0.796	0.738	0.969	0.680	0.545	0.972	0.537
MiniGPT-4	0.285	0.294	0.000	0.062	0.000	0.631	0.266	0.945	0.645	0.461	0.750	0.394
LLaMA-adapter V2	0.314	0.252	0.389	0.022	0.003	0.394	0.000	0.690	0.137	0.294	0.197	0.245
CLIP	0.468	0.446	0.767	0.211	0.296	0.887	0.854	0.977	0.565	0.133	0.734	0.576
BLIP-2	0.3392	0.376	0.508	0.043	0.000	0.673	0.527	1.000	0.918	0.328	0.937	0.514
InstructBLIP	0.5098	0.6112	0.477	0.020	0.000	0.483	0.003	0.723	0.000	0.376	0.257	0.315
kosmos-2	0.000	0.000	0.227	0.035	0.000	0.163	0.000	0.792	0.413	0.365	0.569	0.233
Emu-2	0.622	0.668	0.415	0.027	0.000	0.860	0.360	0.977	0.720	0.500	0.957	0.555
Intern	0.198	0.285	0.375	0.015	0.000	0.472	0.456	0.805	0.261	0.545	0.822	0.385
Gemini	0.729	0.933	0.753	0.268	0.682	0.897	0.897	0.987	0.816	0.668	0.832	0.769
GPT-4V	0.646	0.469	0.748	0.220	0.523	0.880	0.848	0.969	0.802	0.619	0.872	0.691

MLLMのゼロショットOOD一般化は通常のドメインベンチマークで最先端に近づくか凌ぐこともあるが、ドメイン特有の医療・分子データでは性能が著しく低い。
意味解釈の欠如や視覚特徴抽出よりも、マッピング欠陥がドメイン一般化の主な障害として現れる。
CLIPベースの線形プロービングは特定の複雑なタスクでいくつかのMLLMよりも優れることがあり、視覚特徴抽出がOOD一般化のボトルネックではないことを示唆。
分布内およびシフトした文脈内例を用いたICLは複数のデータセットで性能を大幅に向上させ、ICEを増やすほど利得が大きくなる（例：iWildCamで8つのICEでGPT-4Vの最大36.6%）。
ドメインシフト下のICL利得は頑健だが普遍的に有効とは限らず、データセットにより利得が異なり、分子タスクでは効果が低い場合がある。
ラベルシフト下でICEは予測カテゴリの割合を変化させ、安定性を欠く可能性があるため、慎重なICE設計が重要。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。