[논문 리뷰] InterBERT: An Effective Multi-Modal Pretraining Approach via Vision-and-Language Interaction
InterBERT는 단일 스트림 상호작용 모듈과 이중 스트림 추출 모듈을 통해 시각-언어 간 상호작용을 향상시키는 다중모달 프리트레인팅 프레임워크를 제안한다. 이는 단일 모달 성능을 유지하면서도 효과적인 다중모달 이해를 가능하게 한다. 이 모델은 이미지 검색 및 시각적 추론과 같은 시각-언어 작업에서 성능을 향상시키는 마스크된 그룹 모델링(MGM)을 도입한다. 이는 강력한 베이스라인을 능가한다.
We propose a novel method for multi-modal pretraining, namely InterBERT (BERT for Interaction). The proposed architecture owns a strong capability of modeling interaction between the information flows of different modalities. The single-stream interaction module is capable of effectively processing information of multiple modalities, and the two-stream extraction module on top preserves the independence of each modality to avoid significant performance downgrade in single-modal tasks. The proposed pretraining task called masked group modeling (MGM) includes masked segment modeling and masked region modeling. It encourages the model to model a span or region instead of a single word or object, and it requires the model to learn from the general context. We pretrain the model with MGM and the conventional image-text matching, and finetune it on a series of vision-and-language downstream tasks, including caption-based image retrieval, zero-shot image retrieval, and visual commonsense reasoning. Experimental results demonstrate that InterBERT outperforms a series of strong baselines, including the most recent multi-modal pretraining methods. The analysis shows that the proposed MGM is effective for pretraining, and our method for multi-modal pretraining can adapt to single-modal tasks without significant performance decrease in comparison with the BERT-base model.
연구 동기 및 목표
- 시각과 언어 모달 간의 상호작용을 명시적으로 모델링하여 다중모달 표현 학습을 향상시키는 것.
- 이전의 다중모달 모델들과 달리 단일 모달 작업에서 성능 저하 없이 높은 성능을 유지하는 것.
- 개별 토큰이나 개체가 아닌 구간 또는 영역 간의 문맥적 관계를 포착하는 프리트레인팅 목표를 개발하는 것.
- 마스크된 그룹 모델링(MGM)이 다운스트림 시각-언어 작업을 위한 다중모달 이해를 어떻게 향상시키는지 평가하는 것.
제안 방법
- InterBERT는 시각적 및 텍스처적 특징을 융합하기 위해 단일 스트림 상호작용 모듈을 사용하여 동적 다중모달 어텐션과 상호작용을 가능하게 한다.
- 이중 스트림 추출 모듈은 모달 특성에 특화된 표현을 유지하여 단일 모달 다운스트림 작업에서의 강건성을 확보한다.
- 제안된 마스크된 그룹 모델링(MGM) 작업은 텍스트의 연속적인 스퍼브 또는 이미지 영역을 마스크하고, 모델이 문맥을 사용해 이를 재구성하도록 요구한다.
- MGM은 텍스트용 마스크된 세그먼트 모델링과 시각적 특징용 마스크된 영역 모델링을 포함하여, 양 모달 간의 문맥적 추론을 장려한다.
- 모델는 대규모 이미지-텍스트 쌍에서 MGM과 이미지-텍스트 매칭 목표를 사용하여 프리트레인을 수행한다.
- 다운스트림 작업인 캡션 기반 이미지 검색, 제로샷 이미지 검색, 시각적 공통의 이해 추론에 대해 테스트를 적용한다.
실험 결과
연구 질문
- RQ1표준 마스크된 언어 모델링에 비해 마스크된 그룹 모델링(MGM)은 다중모달 프리트레인팅을 어떻게 향상시키는가?
- RQ2통합된 다중모달 아키텍처는 피팅 조정 없이도 단일 모달 작업에서 높은 성능을 유지할 수 있는가?
- RQ3모달 간의 상호작용을 모델링하는 것이 다운스트림 시각-언어 추론 작업에 얼마나 기여하는가?
- RQ4기준 작업에서 InterBERT는 최신의 다중모달 프리트레인팅 방법과 비교해 어떻게 성능을 내는가?
주요 결과
- InterBERT는 최근의 다중모달 프리트레인팅 모델을 포함한 강력한 베이스라인을 초월하여 캡션 기반 이미지 검색 및 제로샷 이미지 검색에서 뛰어난 성능을 보였다.
- 마스크된 그룹 모델링(MGM) 목표는 모달 간의 문맥적 표현 학습 능력을 크게 향상시켰다.
- 이중 스트림 추출 모듈은 InterBERT가 BERT-base 수준의 단일 모달 작업 성능을 유지함으로써 성능 저하를 방지함을 보여주었다.
- 분석 결과 MGM은 모델이 일반적인 문맥을 고려하도록 유도하여 시각-언어 작업에서 더 나은 일반화 능력을 확보하게 했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.