QUICK REVIEW

[논문 리뷰] M3P: Learning Universal Representations via Multitask Multilingual Multimodal Pre-training

Minheng Ni, Haoyang Huang|arXiv (Cornell University)|2020. 06. 04.

Multimodal Machine Learning Applications참고 문헌 39인용 수 43

한 줄 요약

M3P는 다국어 텍스트와 이미지-텍스트 데이터를 함께 사전 학습하여 보편적인 다국어 다중모달 표현을 학습하며, 비영어 언어를 비전과 정렬하기 위한 새롭고 다중모달 코드 스위치 트레이닝(MCT)을 도입합니다. 이로써 Multi30K와 MSCOCO에서 최첨단의 다국어 이미지-텍스트 검색 성능을 달성하는 동시에 영어 성능도 경쟁력 있게 유지합니다.

ABSTRACT

We present M3P, a Multitask Multilingual Multimodal Pre-trained model that combines multilingual pre-training and multimodal pre-training into a unified framework via multitask pre-training. Our goal is to learn universal representations that can map objects occurred in different modalities or texts expressed in different languages into a common semantic space. In addition, to explicitly encourage fine-grained alignment between images and non-English languages, we also propose Multimodal Code-switched Training (MCT) to combine monolingual pre-training and multimodal pre-training via a code-switch strategy. Experiments are performed on the multilingual image retrieval task across two benchmark datasets, including MSCOCO and Multi30K. M3P can achieve comparable results for English and new state-of-the-art results for non-English languages.

연구 동기 및 목표

다양한 모달리티와 언어 간의 객체를 공통 의미 공간으로 매핑하는 보편적 표현을 학습한다.
다국어 사전학습과 다중모달 사전학습을 하나의 다중작업 프레임워크로 통합한다.
데이터 희소성을 완화하기 위해 코드-스위치를 사용하여 비영어 언어를 영상과의 연계로 명시적으로 정렬하고, 다국어 다중모달 태스크의 성능을 향상시킨다.

제안 방법

XLM-R에서 초기화된 Transformer 백본을 사용하여 다국어 텍스트와 이미지 영역을 융합한다.
세 가지 데이터 스트림을 도입한다: Multilingual Monomodal Stream, Monolingual Multimodal Stream, 그리고 Multimodal Code-switched Stream.
사전학습의 두 가지 목적어로 Multilingual Masked Language Modeling (xMLM)과 Multimodal Code-switched Training (MCT)을 구성하고, 이것은 MC-MLM, MC-MRM, MC-VLM으로 이루어진다.

실험 결과

연구 질문

RQ1다국어 사전학습과 다중모달 사전학습을 하나의 다중작업 프리트레이닝 프레임워크로 다국어 다중모달 태스크에서 효과적으로 통합할 수 있는가?
RQ2Multimodal Code-switched Training이 특히 제로샷 및 소량 데이터 설정에서 비영어 다국어-다중모달 전이를 개선하는가?
RQ3다양한 사전학습 태스크가 언어 간 다국어 다중모달 검색 성능에 어떻게 기여하는가?
RQ4MCT에서 사용하는 언어 수가 다운스트림 다국어 검색에 어떤 영향을 미치는가?
RQ5영어 및 비영어 언어 전반에서 제로샷, 소수샷, 그리고 완전 감독 미세조정 시나리오에서 M3P의 성능은 어떠한가?

주요 결과

M3P는 다국어 이미지-텍스트 검색 벤치마크 MSCOCO 및 Multi30K에서 비영어 언어에 대해 최첨단 결과를 달성한다.
제로샷 및 제한된 데이터 설정에서 Multimodal Code-switched Training(MCT)은 비영어 언어에 대해 상당한 이점을 제공한다.
MC-VLM은 MCT 구성요소 중에서 가장 큰 단일 태스크 이득을 기여하며, 다국어 다중모달 사전학습과 결합될 때 영어에서 상당한 향상을 보인다.
사전학습과 미세조정 단계로 MCT를 확장하면 특히 코드-스위치 데이터가 사전학습과 미세조정 모두에서 사용될 때 비영어에서 큰 이득이 나타난다.
MCT에 더 많은 언어를 포함시키면 일부 언어에서 성능이 향상될 수 있지만 노이즈도 유발할 수 있다; 균형 잡힌 선택이 종종 최상의 결과를 낳는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.