[논문 리뷰] Connecting Multi-modal Contrastive Representations
C-MCR은 겹치는 모달리티를 통해 기존 MCR을 연결함으로써 페어링 데이터 없이 교차 모달 표현을 학습하고, 오디오-비주얼 태스크와 3D-언어 태스크에서 제로샷 최첨단 성능을 달성한다.
Multi-modal Contrastive Representation learning aims to encode different modalities into a semantically aligned shared space. This paradigm shows remarkable generalization ability on numerous downstream tasks across various modalities. However, the reliance on massive high-quality data pairs limits its further development on more modalities. This paper proposes a novel training-efficient method for learning MCR without paired data called Connecting Multi-modal Contrastive Representations (C-MCR). Specifically, given two existing MCRs pre-trained on (A, B) and (B, C) modality pairs, we project them to a new space and use the data from the overlapping modality B to aligning the two MCRs in the new space. Meanwhile, since the modality pairs (A, B) and (B, C) are already aligned within each MCR, the connection learned by overlapping modality can also be transferred to non-overlapping modality pair (A, C). To unleash the potential of C-MCR, we further introduce a semantic-enhanced inter- and intra-MCR connection method. We first enhance the semantic consistency and completion of embeddings across different modalities for more robust alignment. Then we utilize the inter-MCR alignment to establish the connection, and employ the intra-MCR alignment to better maintain the connection for inputs from non-overlapping modalities. To demonstrate the effectiveness of C-MCR, we connect CLIP and CLAP via texts to derive audio-visual representations, and integrate CLIP and ULIP via images for 3D-language representations. Remarkably, without using any paired data, C-MCR for audio-visual achieves state-of-the-art performance on audio-image retrieval, audio-visual source localization, and counterfactual audio-image recognition tasks. Furthermore, C-MCR for 3D-language also attains advanced zero-shot 3D point cloud classification accuracy on ModelNet40.
연구 동기 및 목표
- paired 데이터가 희소하거나 사용할 수 없을 때 강건한 다중 모달 표현 학습을 자극한다.
- 사전 학습된 MCR 공간을 겹치는 모달리티를 통해 연결하는 경량 방법을 제안한다.
- modality 간 및 intra-MCR 전략으로 의미적 정렬을 강화하여 모달리티 간 격차를 줄인다.
- 오디오-비주얼 및 3D-언어 태스크에서 강한 제로샷 성능을 보여주는 접근 방식을 시연한다.
제안 방법
- 두 개의 사전 학습된 MCR로부터 임베딩을 공유 공간으로 매핑하는 두 개의 단순한 프로젝터를 학습하는 것을 C-MCR로 형식화한다.
- 인터-모달 의미 일관성과 인-모달 의미 보완으로 구성된 의미 강화 방법을 도입한다.
- 텍스트 guided 투사와 두 가지 대비 손실(L_ttc 및 L_avc)을 사용하여 MCR 간 정렬을 구축한다.
- 비겹치는 모달리티를 위한 연결 고리를 유지하기 위해 intra-MCR 정렬로 모달리티 간 격차를 좁힌다.
- 고정된 인코더와 오프라인 메모리를 사용하고 두 개의 프로젝터만 L_inter + lambda L_intra의 합성 손실로 최적화하여 학습을 수행한다.
- 음성-시각 태스크에는 CLIP과 CLAP를 연결하고, 3D-언어 태스크에는 CLIP과 ULIP를 연결하는 프레임워크를 적용한다.
실험 결과
연구 질문
- RQ1기존의 MCR 공간을 대규모 페어링 데이터에 의존하지 않고 연결할 수 있는가?
- RQ2겹치는 모달리티를 활용하여 정렬을 비겹치는 모달리티 쌍으로 이전시키는 방법은 무엇인가?
- RQ3의미 강화 및 intra-MCR 정렬이 학습된 연결의 강건성 및 전이 가능성을 향상시키는가?
- RQ4C-MCR로 오디오-비주얼과 3D-언어 태스크에서 어떤 제로샷 성능 향상을 달성할 수 있는가?
주요 결과
- C-MCR은 학습 데이터를 위한 페어링 없이도 오디오-비주얼 태스크에서 제로샷 최첨단 성능을 달성한다.
- 오디오-비주얼 태스크의 경우 C-MCR은 여섯 개 데이터셋과 세 가지 하위 작업(오디오-비주얼 검색, 위치 추정, 반사실 인식)에서 강한 제로샷 성능을 얻는다.
- 3D-언어 태스크에서 C-MCR은 고급 제로샷 ModelNet40 분류 정확도를 달성한다.
- 고정된 인코더와 학습 가능한 두 개의 프로젝터만 사용하여 학습이 효율적이고 매개변수가 작다.
- 의미 강화된 인터- 및 인-모달 연결은 CLIP/CLAP 간의 전이 가능한 정렬 및 이미지 기반 ULIP/CLIP 간의 정렬을 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.