[논문 리뷰] On the Out-Of-Distribution Generalization of Multimodal Large Language Models
해당 논문은 14개의 MLLM의 zero-shot 및 ICL 기반 일반화 성능을 OOD, 분포-변화, 도메인 특화 작업에서 체계적으로 평가하고, 매핑 미비를 주요 걸림돌로 확인하며, 특정 조건에서 인-context 학습이 OOD 성능을 크게 향상시킬 수 있음을 보여준다.
We investigate the generalization boundaries of current Multimodal Large Language Models (MLLMs) via comprehensive evaluation under out-of-distribution scenarios and domain-specific tasks. We evaluate their zero-shot generalization across synthetic images, real-world distributional shifts, and specialized datasets like medical and molecular imagery. Empirical results indicate that MLLMs struggle with generalization beyond common training domains, limiting their direct application without adaptation. To understand the cause of unreliable performance, we analyze three hypotheses: semantic misinterpretation, visual feature extraction insufficiency, and mapping deficiency. Results identify mapping deficiency as the primary hurdle. To address this problem, we show that in-context learning (ICL) can significantly enhance MLLMs' generalization, opening new avenues for overcoming generalization barriers. We further explore the robustness of ICL under distribution shifts and show its vulnerability to domain shifts, label shifts, and spurious correlation shifts between in-context examples and test data.
연구 동기 및 목표
- 현재 MLLMs의 out-of-distribution 시나리오(합성, 실제 분포 변화, 도메인 특화 데이터(의료, 분자))에서 제로샷 일반화를 평가합니다.
- 의미 해석의 오류, 시각 특징 추출, 매핑 미비 중 OOD 일반화에 어떤 뿌리 원인이 있는지 파악합니다.
- 도메인 변화, 배치, 스푸리어스 상관 관계 변화에서 OOD 일반화 및 강인성을 향상시키기 위한 맥락 학습(ICL)의 효과와 한계를 평가합니다.
제안 방법
- 분포 변화와 도메인 특성 작업을 포함한 20개 데이터셋에서 14개의 MLLMs를 평가합니다.
- 의미 해석, 시각 특징 추출의 불충분, 매핑 미비의 세 가지 가설에 걸친 오차 분석을 수행합니다.
- 시각 특징 추출의 병목 현상을 평가하기 위해 선형 프로빙과 함께 CLIP 특징을 사용합니다.
- ODD 일반화 작업에서 CLIP 모델 규모의 확장 효과를 분석합니다.
- 목적 분포에서의 ICE를 통해 대상 및 바이어스 분포의 컨텍스트 예제를 제공하고 성능 향상을 측정합니다.
- 도메인 변화, 라벨 변화, 그리고 스푸리드 상관 변화 하에서 ICE의 로이드(ICE-based) 지도의 견고성을 평가합니다.
실험 결과
연구 질문
- RQ1현재의 MLLMs가 적응 없이 제로샷으로 OOD 및 도메인 특화 데이터에 얼마나 잘 일반화합니까?
- RQ2의미 해석, 시각 특징 추출, 매핑 미비가 OOD 일반화에 미치는 상대적 영향은 무엇입니까?
- RQ3ICE가 OOD 일반화를 개선할 수 있습니까? 그리고 도메인, 라벨, 스푸리어 상관 변화 하에서의 한계는 무엇입니까?
- RQ4모델 크기와 확장이 다중 모달 설정의 OOD 일반화에 어떤 영향을 미칩니까?
- RQ5특히 분자 활성 예측과 같은 고도로 도메인 특화된 작업에서 ICL이 실패하는 조건은 무엇입니까?
주요 결과
| 데이터셋 | CMNIST | RMNIST | DomainNet | Fmow | iWildCam | NICO++ | OfficeHome | PACS | SVIRO | TerraInc | VLCS | Average |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| LLaVA | 0.622 | 0.696 | 0.480 | 0.148 | 0.054 | 0.849 | 0.736 | 0.980 | 0.874 | 0.668 | 0.975 | 0.644 |
| QWen-VL | 0.198 | 0.212 | 0.365 | 0.038 | 0.000 | 0.763 | 0.635 | 0.964 | 0.808 | 0.378 | 0.943 | 0.482 |
| CogVLM | 0.117 | 0.317 | 0.081 | 0.013 | 0.000 | 0.066 | 0.684 | 0.983 | 0.930 | 0.656 | 0.965 | 0.437 |
| mPLUG-owl | 0.356 | 0.411 | 0.412 | 0.020 | 0.003 | 0.796 | 0.738 | 0.969 | 0.680 | 0.545 | 0.972 | 0.537 |
| MiniGPT-4 | 0.285 | 0.294 | 0.000 | 0.062 | 0.000 | 0.631 | 0.266 | 0.945 | 0.645 | 0.461 | 0.750 | 0.394 |
| LLaMA-adapter V2 | 0.314 | 0.252 | 0.389 | 0.022 | 0.003 | 0.394 | 0.000 | 0.690 | 0.137 | 0.294 | 0.197 | 0.245 |
| CLIP | 0.468 | 0.446 | 0.767 | 0.211 | 0.296 | 0.887 | 0.854 | 0.977 | 0.565 | 0.133 | 0.734 | 0.576 |
| BLIP-2 | 0.3392 | 0.376 | 0.508 | 0.043 | 0.000 | 0.673 | 0.527 | 1.000 | 0.918 | 0.328 | 0.937 | 0.514 |
| InstructBLIP | 0.5098 | 0.6112 | 0.477 | 0.020 | 0.000 | 0.483 | 0.003 | 0.723 | 0.000 | 0.376 | 0.257 | 0.315 |
| kosmos-2 | 0.000 | 0.000 | 0.227 | 0.035 | 0.000 | 0.163 | 0.000 | 0.792 | 0.413 | 0.365 | 0.569 | 0.233 |
| Emu-2 | 0.622 | 0.668 | 0.415 | 0.027 | 0.000 | 0.860 | 0.360 | 0.977 | 0.720 | 0.500 | 0.957 | 0.555 |
| Intern | 0.198 | 0.285 | 0.375 | 0.015 | 0.000 | 0.472 | 0.456 | 0.805 | 0.261 | 0.545 | 0.822 | 0.385 |
| Gemini | 0.729 | 0.933 | 0.753 | 0.268 | 0.682 | 0.897 | 0.897 | 0.987 | 0.816 | 0.668 | 0.832 | 0.769 |
| GPT-4V | 0.646 | 0.469 | 0.748 | 0.220 | 0.523 | 0.880 | 0.848 | 0.969 | 0.802 | 0.619 | 0.872 | 0.691 |
- 제로샷 OOD 일반화가 일반 도메인 벤치마크에서 최첨단에 근접하거나 이를 능가할 수 있지만, 의학 및 분자 데이터와 같은 도메인 특화 데이터에서는 성능이 저조합니다.
- 매핑 미비가, 의미 해석 오류나 시각 특징 추출이 아니라 많은 경우 도메인 일반화의 주요 방해 요소로 드러났습니다.
- CLIP 기반 선형 프로빙은 특정 복합 과제에서 여러 MLLMs보다 우수할 수 있어, 이 설정에서 시각 특징 추출이 OOD 일반화의 병목이 아닐 수 있음을 시사합니다.
- 동일 분포 및 shifted 컨텍스트 예제를 사용한 ICL은 여러 데이터셋에서 성능을 크게 향상시키며, ICE를 더 많이 사용할수록 이득이 커집니다(예: iWildCam: GPT-4V 8 ICE에서 최대 36.6%).
- 도메인 변화 하에서의 ICL 이득은 견고하지만 모든 경우에 유리하지 않으며, 데이터셋에 따라 다르고 분자 작업에서는 덜 효과적일 수 있습니다.
- 라벨 변화 하에서 ICE는 예측된 범주 비율을 바꾸고 불안정을 초래할 수 있어, ICE 설계에 신중함이 필요합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.