[논문 리뷰] Multimodality Helps Unimodality: Cross-Modal Few-Shot Learning with Multimodal Models
다중모달 기반 모델(예: CLIP, AudioCLIP)을 이용한 교차 모달 적응이 다른 모달을 추가 학습 샘플로 간주하여 unimodal 소수 샷 분류를 향상시킬 수 있으며, 간단한 선형 프로브로 최첨단 성과를 달성하고 시청각 시나리오로 확장한다.
The ability to quickly learn a new task with minimal instruction - known as few-shot learning - is a central aspect of intelligent agents. Classical few-shot benchmarks make use of few-shot samples from a single modality, but such samples may not be sufficient to characterize an entire concept class. In contrast, humans use cross-modal information to learn new concepts efficiently. In this work, we demonstrate that one can indeed build a better ${\bf visual}$ dog classifier by ${\bf read}$ing about dogs and ${\bf listen}$ing to them bark. To do so, we exploit the fact that recent multimodal foundation models such as CLIP learn cross-modal encoders that map different modalities to the same representation space. Specifically, we propose a simple strategy for ${\bf cross-modal}$ ${\bf adaptation}$: we treat examples from different modalities as additional few-shot examples. For example, by simply repurposing class names as an additional training sample, we trivially turn any n-shot learning problem into a (n+1)-shot problem. This allows us to produce SOTA results with embarrassingly simple linear classifiers. We show that our approach can be combined with existing methods such as prefix tuning, adapters, and classifier ensembling. Finally, to explore other modalities beyond vision and language, we construct the first (to our knowledge) audiovisual few-shot benchmark and use cross-modal training to improve the performance of both image and audio classification.
연구 동기 및 목표
- 크로스 모달 정보를 활용하여 소수 샷 학습에서 모호성을 해소할 수 있음을 다중모달 신호를 통해 제시한다.
- 다른 모달을 추가 학습 샘플로 활용하는 경량의 교차 모달 적응 프레임워크를 제안한다.
- 여러 데이터셋에 걸쳐 교차 모달 적응이 단일 모달 적응 방법의 최첨단 성과를 능가할 수 있음을 보여준다.
- 비전-언어를 넘어서 오디오 및 시청각 설정으로도 이 접근 방식이 확장됨을 보인다.
제안 방법
- 공유 임베딩 공간으로 매핑되는 모달별 인코더를 사용한 교차 모달 학습을 형식화한다.
- 시각 특징과 보조 모달 특징을 동일한 분류기에 입력으로 사용하여 선형 분류기를 학습한다.
- 클래스 라벨(텍스트)을 추가 샘플로 간주하여 n-shot 문제를 (n+1)-shot 문제로 변환한다.
- 학습된 교차 모달 가중치를 사용하여 모든 모달의 테스트 샘플을 처리할 수 있는 추론을 제공한다.
- Representer 정리를 통해 학습된 분류기를 모달 간 앙상블로 분석한다.
- CLIP 및 AudioCLIP를 사용한 시각-언어 적응을 실험하고 11개 데이터셋에 걸쳐 고정된 소수 샷 평가 프로토콜을 따른다.
![Figure 2 : Adding additional modalities helps few-shot learning . Adding textual labels to a 2-shot cat-vs-dog classification task leads to better test performance (by turning the problem into a 3-shot cross-modal task!). We visualize cross-modal CLIP [ 21 ] features (projection to 2D with principal](https://ar5iv.labs.arxiv.org/html/2301.06267/assets/x2.png)
실험 결과
연구 질문
- RQ1추가 모달(텍스트, 오디오)이 추가 학습 샘플로 작용하여 시각 분류의 소수 샷 성능을 향상시킬 수 있는가?
- RQ2다양한 데이터셋에서 크로스 모달 적응이 단일 모달 미세조정이나 프로빙 방법보다 이점을 제공하는가?
- RQ3교차 모달 학습이 프롬프트나 어댑터와 같은 기존 적응 기법들과 직교적이고 보완적인가?
- RQ4이 접근법이 시청각 벤치마크로 확장되어 이미지 및 오디오 분류 모두를 향상시킬 수 있는가?
주요 결과
- 간단한 선형 프로브를 사용하는 교차 모달 적응은 CoOp 프로토콜 아래 11개 데이터셋에서 최첨단 결과를 얻는다.
- 텍스트 라벨을 학습 샘플로 도입하면 종종 1샷 작업을 더 효과적인 2샷 또는 3샷 상황으로 전환시키며, 때로는 더 높은 샷의 단일 모달 방법을 능가한다.
- 교차 모달 적응은 특히 데이터가 적은 상황에서 단일 모달 베이스라인 및 다른 적응 방법(프롬프트, 어댜터, 강건 미세조정)에 비해 일관된 이점을 제공한다.
- 모달별 인코더의 부분 미세조정은 성능을 더 향상시키며 일부 설정에서 새로운 SOTA를 달성한다.
- AudioCLIP으로 오디오를 확장하고 이미지-오디오 벤치마크를 구성하면 다른 모달의 한 샷 샘플을 추가하는 것이 대부분의 경우 이미지 및 오디오 분류를 모두 향상시킨다.
- 텍스트 기반 확장(클래스 이름을 프롬프트로 사용)은 여전히 유익하며 이미지 확장과 결합하여 강인성을 높일 수 있다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.