QUICK REVIEW

[論文レビュー] M3P: Learning Universal Representations via Multitask Multilingual Multimodal Pre-training

Minheng Ni, Haoyang Huang|arXiv (Cornell University)|Jun 4, 2020

Multimodal Machine Learning Applications参考文献 39被引用数 43

ひとこと要約

M3P は、 multilingual text と image-text data を共同前訓練することで、普遍的な multilingual and multimodal representations を学習し、非英語言語を視覚情報と整合させる新しい Multimodal Code-switched Training (MCT) を用います。Multi30K および MSCOCO で multilingual image-text retrieval の最先端を達成しつつ、英語の性能も競争力を維持します。

ABSTRACT

We present M3P, a Multitask Multilingual Multimodal Pre-trained model that combines multilingual pre-training and multimodal pre-training into a unified framework via multitask pre-training. Our goal is to learn universal representations that can map objects occurred in different modalities or texts expressed in different languages into a common semantic space. In addition, to explicitly encourage fine-grained alignment between images and non-English languages, we also propose Multimodal Code-switched Training (MCT) to combine monolingual pre-training and multimodal pre-training via a code-switch strategy. Experiments are performed on the multilingual image retrieval task across two benchmark datasets, including MSCOCO and Multi30K. M3P can achieve comparable results for English and new state-of-the-art results for non-English languages.

研究の動機と目的

モーダル性と言語を横断してオブジェクトを共通の意味空間へマッピングする universal representations を学習する。
multilingual pre-training と multimodal pre-training を単一の multitask フレームワークに統合する。
コードスイッチを用いて非英語の画像とテキストを明示的に揃え、 multilingual multimodal タスクのデータ希少性を緩和する。

提案手法

XLM-R から初期化された Transformer ベースを用いて multilingual テキストと画像領域を融合する。
3 つのデータストリームを導入する：Multilingual Monomodal Stream、Monolingual Multimodal Stream、Multimodal Code-switched Stream。
2 つの目的で前訓練を行う：Multilingual Masked Language Modeling (xMLM) と Multimodal Code-switched Training (MCT)（MC-MLM、MC-MRM、MC-VLM から成る。）

実験結果

リサーチクエスチョン

RQ1multilingual pre-training と multimodal pre-training を、 multilingual multimodal タスクのための単一の multitask 前訓練フレームワークに効果的に統合できるか？
RQ2Multimodal Code-switched Training は、特にゼロショットと少数ショット設定において、非英語の multilingual-multimodal 転移を改善するか？
RQ3異なる前訓練タスクは、言語間での multilingual multimodal retrieval の性能にどう寄与するか？
RQ4MCT における使用言語数が下流の multilingual retrieval に与える影響は？
RQ5M3P は英語と非英語の言語で、ゼロショット、少数ショット、完全に教師ありのファインチューニングの各シナリオでどのように性能を発揮するか？

主な発見

M3P は multilingual image-text retrieval のベンチマーク MSCOCO および Multi30K において非英語言語の最先端の成果を達成。
ゼロショットおよびデータ制限の settings では、Multimodal Code-switched Training (MCT) は非英語言語に対して顕著な利得をもたらす。
MC-VLM は MCT コンポーネントの中で最大の単一タスク利得を寄与し、 multilingual multimodal pre-training と組み合わせると英語の性能も大幅に向上。
MCT をファインチューニング段階へ拡張すると非英語の利得が大きく、特に前訓練とファインチューニングの両方でコードスイッチされたデータを使用すると効果が高い。
MCT に使用言語を増やすと一部言語で改善が見られる一方、ノイズが混入する場合もある。バランスのとれた選択が最良の結果を生むことが多い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。