QUICK REVIEW

[論文レビュー] M6: A Chinese Multimodal Pretrainer

Junyang Lin, Rui Men|ArXiv.org|Mar 1, 2021

Multimodal Machine Learning Applications参考文献 47被引用数 48

ひとこと要約

この論文は M6 を導入し、大規模な中国語マルチモーダル事前学習フレームワークで、M6-Corpus データセット（1.9TBの画像、292GBのテキスト）とモデルスケールを10Bおよび100Bパラメータに拡大し、強力なクロスモーダルタスクとテキストから画像生成を達成する。

ABSTRACT

In this work, we construct the largest dataset for multimodal pretraining in Chinese, which consists of over 1.9TB images and 292GB texts that cover a wide range of domains. We propose a cross-modal pretraining method called M6, referring to Multi-Modality to Multi-Modality Multitask Mega-transformer, for unified pretraining on the data of single modality and multiple modalities. We scale the model size up to 10 billion and 100 billion parameters, and build the largest pretrained model in Chinese. We apply the model to a series of downstream applications, and demonstrate its outstanding performance in comparison with strong baselines. Furthermore, we specifically design a downstream task of text-guided image generation, and show that the finetuned M6 can create high-quality images with high resolution and abundant details.

研究の動機と目的

多様なドメインを跨ぐ最大規模の中国語マルチモーダル事前学習データセット（M6-Corpus）を構築する。
単一およびクロスモーダルの理解と生成が可能な統一マルチモーダル・トランスフォーマー（M6）を開発する。
モデルを10Bおよび100Bパラメータへスケールさせ、訓練効率を最適化する。
VQA、画像キャプション、クロスモーダル検索、テキストから画像生成を含むダウンストリーム能力を実証する。

提案手法

多様なソース（百科事典、クローリングされたウェブページ、フォーラム、eコマース等）から、画像 over 1.9TB およびテキスト 292GB を含む M6-Corpus を作成する。
視覚と言語入力およびモダリティ特有のセグメント埋め込みを備えた統一型トランスフォーマーとして M6 を提案する。
テキスト-テキスト転送（デノイジングおよび言語モデル）・画像-テキスト転送（キャプション付与）・マルチモダリティ-テキスト転送というマルチタスク目的で事前学習を行う。
dense および Mixture-of-Experts（MoE）アーキテクチャを用いて M6-10B および M6-100B へ拡張し、混合精度、アクティベーション・チェックポイント、社内フレームワーク Whale などの訓練最適化を適用する。

実験結果

リサーチクエスチョン

RQ1巨大で多様なデータセットで事前学習した単一の中国語マルチモーダルモデルは、複数のドメインにわたる強力なクロスモーダルタスクを実行できるか。
RQ2スケールとアーキテクチャ（dense vs MoE）がマルチモーダル目的の性能と訓練効率にどう影響するか。
RQ3モデルは標準的なリトリーバル/分類を超えたテキスト指向の画像生成や他の生成タスクをサポートできるか。

主な発見

M6-10B および M6-100B は、VQA で +11.8%、image captioning で +18.4%、image-text matching で +10.3% など、マルチモーダルタスクで強力なベースラインを上回る。
M6 は離散的な画像コードと自回帰的なテキストコードモデリングを用いた二段階フレームワークを通じて高品質なテキストから画像生成を実現する。
M6-100B（MoE）は、密結合型の 100B 相当モデルよりも収束が速く、困難さのある比較において negative log perplexity が -2.297 に達し、M6-10B の -2.253 を上回る競争力のある困惑度を実現する。
E-Commerce ITM で、M6-base は InterBert を 10.3% の精度差で上回る（90.2 vs 81.8）。
E-Commerce IC 画像キャプション生成では、Baseline に比べ正確さと豊かさが大幅に向上し、M6-10B でさらに指標が改善される。
FMIQA の結果、事前学習済みの M6-base が全体精度 71.0 に対してベースラインの 66.8 を超え（+4.2）、M6-10B は 74.7（+7.9）に到達する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。