QUICK REVIEW

[논문 리뷰] M6: A Chinese Multimodal Pretrainer

Junyang Lin, Rui Men|ArXiv.org|2021. 03. 01.

Multimodal Machine Learning Applications참고 문헌 47인용 수 48

한 줄 요약

본 논문은 M6를 소개합니다. 대형 중국어 다중모달 사전학습 프레임워크로, M6-Corpus 데이터셋(1.9TB 이미지, 292GB 텍스트)과 모델 규모가 10B 및 100B 매개변수까지 확장되며, 강력한 크로스모달 태스크와 텍스트-투-이미지 생성 성능을 달성합니다.

ABSTRACT

In this work, we construct the largest dataset for multimodal pretraining in Chinese, which consists of over 1.9TB images and 292GB texts that cover a wide range of domains. We propose a cross-modal pretraining method called M6, referring to Multi-Modality to Multi-Modality Multitask Mega-transformer, for unified pretraining on the data of single modality and multiple modalities. We scale the model size up to 10 billion and 100 billion parameters, and build the largest pretrained model in Chinese. We apply the model to a series of downstream applications, and demonstrate its outstanding performance in comparison with strong baselines. Furthermore, we specifically design a downstream task of text-guided image generation, and show that the finetuned M6 can create high-quality images with high resolution and abundant details.

연구 동기 및 목표

다양한 도메인에 걸친 가장 큰 중국어 다중모달 사전학습 데이터셋(M6-Corpus)을 구축한다.
단일- 및 교차 모달 이해와 생성을 모두 수행할 수 있는 통합 다중모달 Transformer인 M6를 개발한다.
모델을 10B 및 100B 매개변수로 확장하고 학습 효율성을 최적화한다.
VQA, 이미지 캡션 생성, 교차 모달 검색, 텍스트-투-이미지 생성 등 다운스트림 능력을 입증한다.

제안 방법

다양한 소스에서 1.9TB 이상의 이미지와 292GB의 텍스트로 M6-Corpus를 생성한다.
시각적 및 언어적 입력과 모달리티별 세그먼트 임베딩을 갖춘 통합 Transformer인 M6를 제안한다.
다중 작업 목표를 통해 사전학습한다: text-to-text 전이(denoising 및 언어 모델링), image-to-text 전이(캡션 생성), 그리고 다중모달리티-투-텍스트 전이.
dense 및 Mixture-of-Experts(MoE) 아키텍처를 사용하여 M6-10B 및 M6-100B로 확장하고, 혼합정밀도, 활성화 체크포인팅, 그리고 자체 프레임워크 Whale과 같은 학습 최적화를 적용한다.

실험 결과

연구 질문

RQ1거대한 다양성의 데이터셋에서 사전학습된 단일 대형 중국어 다중모달 모델이 여러 도메인에 걸쳐 강력한 크로스모달 태스크를 수행할 수 있는가?
RQ2스케일과 아키텍처(dense vs MoE)가 다중모달 목표의 성능과 학습 효율성에 어떻게 영향을 미치는가?
RQ3모델이 텍스트 가이드 이미지 생성 및 표준 검색/분류를 넘어서는 다른 생성 태스크를 지원할 수 있는가?

주요 결과

M6-10B 및 M6-100B가 다중모달 태스크에서 강력한 기준선 대비 우수한 성능을 보이며, 예를 들어 VQA에서 +11.8%, 이미지 캡션 생성에서 +18.4%, 이미지-텍스트 매칭에서 +10.3%를 달성한다.
M6는 이산 이미지 코드와 자기회귀 텍스트-코드 모델링을 활용한 2단계 프레임워크를 통해 고품질의 텍스트-투-이미지 생성을 가능하게 한다.
M6-100B(MoE)는 밀집형 100B 유사 모델 대비 더 빠른 수렴과 경쟁력 있는 perplexity를 달성하며, 특정 비교에서 M6-10B의 -2.253에 비해 -2.297의 음의 로그 perplexity를 도달한다.
E-Commerce ITM에서 M6-base가 정확도에서 InterBert를 10.3% 향상시켜 90.2 vs 81.8를 기록한다.
E-Commerce IC 이미지 캡션에서 M6-base는 기준선에 비해 정확성과 풍부함을 크게 향상시키고, M6-10B가 지표를 더 개선한다.
FMIQA 결과에서 사전학습된 M6-base가 71.0의 전체 정확도(기준선 66.8 +4.2)를 달성하고, M6-10B가 74.7(+7.9)에 도달한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.