QUICK REVIEW

[논문 리뷰] InterBERT: An Effective Multi-Modal Pretraining Approach via Vision-and-Language Interaction

Junyang Lin, Yang An|arXiv (Cornell University)|2020. 03. 30.

Multimodal Machine Learning Applications참고 문헌 64인용 수 11

한 줄 요약

InterBERT는 단일 스트림 상호작용 모듈과 이중 스트림 추출 모듈을 통해 시각-언어 간 상호작용을 향상시키는 다중모달 프리트레인팅 프레임워크를 제안한다. 이는 단일 모달 성능을 유지하면서도 효과적인 다중모달 이해를 가능하게 한다. 이 모델은 이미지 검색 및 시각적 추론과 같은 시각-언어 작업에서 성능을 향상시키는 마스크된 그룹 모델링(MGM)을 도입한다. 이는 강력한 베이스라인을 능가한다.

ABSTRACT

We propose a novel method for multi-modal pretraining, namely InterBERT (BERT for Interaction). The proposed architecture owns a strong capability of modeling interaction between the information flows of different modalities. The single-stream interaction module is capable of effectively processing information of multiple modalities, and the two-stream extraction module on top preserves the independence of each modality to avoid significant performance downgrade in single-modal tasks. The proposed pretraining task called masked group modeling (MGM) includes masked segment modeling and masked region modeling. It encourages the model to model a span or region instead of a single word or object, and it requires the model to learn from the general context. We pretrain the model with MGM and the conventional image-text matching, and finetune it on a series of vision-and-language downstream tasks, including caption-based image retrieval, zero-shot image retrieval, and visual commonsense reasoning. Experimental results demonstrate that InterBERT outperforms a series of strong baselines, including the most recent multi-modal pretraining methods. The analysis shows that the proposed MGM is effective for pretraining, and our method for multi-modal pretraining can adapt to single-modal tasks without significant performance decrease in comparison with the BERT-base model.

연구 동기 및 목표

시각과 언어 모달 간의 상호작용을 명시적으로 모델링하여 다중모달 표현 학습을 향상시키는 것.
이전의 다중모달 모델들과 달리 단일 모달 작업에서 성능 저하 없이 높은 성능을 유지하는 것.
개별 토큰이나 개체가 아닌 구간 또는 영역 간의 문맥적 관계를 포착하는 프리트레인팅 목표를 개발하는 것.
마스크된 그룹 모델링(MGM)이 다운스트림 시각-언어 작업을 위한 다중모달 이해를 어떻게 향상시키는지 평가하는 것.

제안 방법

InterBERT는 시각적 및 텍스처적 특징을 융합하기 위해 단일 스트림 상호작용 모듈을 사용하여 동적 다중모달 어텐션과 상호작용을 가능하게 한다.
이중 스트림 추출 모듈은 모달 특성에 특화된 표현을 유지하여 단일 모달 다운스트림 작업에서의 강건성을 확보한다.
제안된 마스크된 그룹 모델링(MGM) 작업은 텍스트의 연속적인 스퍼브 또는 이미지 영역을 마스크하고, 모델이 문맥을 사용해 이를 재구성하도록 요구한다.
MGM은 텍스트용 마스크된 세그먼트 모델링과 시각적 특징용 마스크된 영역 모델링을 포함하여, 양 모달 간의 문맥적 추론을 장려한다.
모델는 대규모 이미지-텍스트 쌍에서 MGM과 이미지-텍스트 매칭 목표를 사용하여 프리트레인을 수행한다.
다운스트림 작업인 캡션 기반 이미지 검색, 제로샷 이미지 검색, 시각적 공통의 이해 추론에 대해 테스트를 적용한다.

실험 결과

연구 질문

RQ1표준 마스크된 언어 모델링에 비해 마스크된 그룹 모델링(MGM)은 다중모달 프리트레인팅을 어떻게 향상시키는가?
RQ2통합된 다중모달 아키텍처는 피팅 조정 없이도 단일 모달 작업에서 높은 성능을 유지할 수 있는가?
RQ3모달 간의 상호작용을 모델링하는 것이 다운스트림 시각-언어 추론 작업에 얼마나 기여하는가?
RQ4기준 작업에서 InterBERT는 최신의 다중모달 프리트레인팅 방법과 비교해 어떻게 성능을 내는가?

주요 결과

InterBERT는 최근의 다중모달 프리트레인팅 모델을 포함한 강력한 베이스라인을 초월하여 캡션 기반 이미지 검색 및 제로샷 이미지 검색에서 뛰어난 성능을 보였다.
마스크된 그룹 모델링(MGM) 목표는 모달 간의 문맥적 표현 학습 능력을 크게 향상시켰다.
이중 스트림 추출 모듈은 InterBERT가 BERT-base 수준의 단일 모달 작업 성능을 유지함으로써 성능 저하를 방지함을 보여주었다.
분석 결과 MGM은 모델이 일반적인 문맥을 고려하도록 유도하여 시각-언어 작업에서 더 나은 일반화 능력을 확보하게 했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.