QUICK REVIEW

[논문 리뷰] Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning

Lili Yu, Bowen Shi|arXiv (Cornell University)|2023. 09. 05.

Multimodal Machine Learning Applications인용 수 27

한 줄 요약

CM3Leon은 검색 보강 토큰 기반 디코더-전용 다중모달 모델로 텍스트와 이미지를 생성 및 보충할 수 있으며, 학습 계산량을 크게 줄이고 지시어 튜닝 후 성능을 향상시켜 텍스트-이미지 결과에서 최첨단 성과를 달성합니다.

ABSTRACT

We present CM3Leon (pronounced "Chameleon"), a retrieval-augmented, token-based, decoder-only multi-modal language model capable of generating and infilling both text and images. CM3Leon uses the CM3 multi-modal architecture but additionally shows the extreme benefits of scaling up and tuning on more diverse instruction-style data. It is the first multi-modal model trained with a recipe adapted from text-only language models, including a large-scale retrieval-augmented pre-training stage and a second multi-task supervised fine-tuning (SFT) stage. It is also a general-purpose model that can do both text-to-image and image-to-text generation, allowing us to introduce self-contained contrastive decoding methods that produce high-quality outputs. Extensive experiments demonstrate that this recipe is highly effective for multi-modal models. CM3Leon achieves state-of-the-art performance in text-to-image generation with 5x less training compute than comparable methods (zero-shot MS-COCO FID of 4.88). After SFT, CM3Leon can also demonstrate unprecedented levels of controllability in tasks ranging from language-guided image editing to image-controlled generation and segmentation.

연구 동기 및 목표

자동회귀형 토큰 기반 다중모달 모델이 축소된 계산량으로 이미지 생성에서 확산 기반 방법과 일치하거나 이를 능가할 수 있음을 보여준다.
라이선스 데이터(Shutterstock)를 활용한 검색 보강 사전 학습 파이프라인이 다중모달 작업에 미치는 이점을 보여준다.
텍스트, 이미지, 혼합 작업 전반에서 성능에 대한 다중 작업 감독 미세 조정(지시 튜닝)의 영향을 평가한다.
생성 품질 향상을 위한 자체 포함 대조적 디코딩(self-contained contrastive decoding)을 탐구한다.
SFT 이후 제어 가능성을 갖춘 텍스트-이미지 및 이미지-텍스트 생성이 가능한 다재다능한 모델로 CM3Leon을 확립한다.

제안 방법

CM3 다중모달 아키텍처를 디코더 전용의 검색 보강 모델(CM3Leon)로 적응한다.
라이선스된 Shutterstock 이미지와 텍스트에서 대규모 검색 보강 데이터를 사용하여 사전 학습하며, 밀도 CLIP 기반 검색기와 MIPS를 활용하여 검색한다.
모달리티 간 전환을 위해 새로운 <break> 토큰을 도입하고 다중 모달 보충 및 생성에 CM3 스타일의 목표를 사용한다.
혼합 이미지-텍스트 작업 전반에 걸친 지시 튜닝을 위한 다중 작업 감독 미세 조정(SFT)의 두 번째 단계를 적용한다.
텍스트와 이미지 생성을 개선하기 위한 자체 포함 대조적 디코딩 방법을 도입하고, CD-K의 변형 및 분류기 없는 가이던스(CFG)를 포함한다.
디코딩 전략(온도, Top-P, CFG, CD-K)을 평가하고 검색 제거 연구를 수행하여 제로샷 MS-COCO FID 및 기타 작업에 미치는 영향을 정량화한다.

실험 결과

연구 질문

RQ1검색 보강과 효율적인 학습으로도 자동회귀형 토큰 기반 다중모달 모델이 텍스트-이미지 품질에서 경쟁력 있거나 더 우수해질 수 있는가?
RQ2사전 학습 중 검색 보강이 이미지 및 텍스트 작업의 제로샷 및 소수샷 생성 성능을 향상시키는가?
RQ3대규모 지시 튜닝(SFT)이 혼합 이미지-텍스트 작업에 대한 제어 가능성과 성능에 미치는 영향은 무엇인가?
RQ4고급 디코딩 전략(CFG, Top-P, CD-K)이 다중 모달 출력의 생성 품질과 다양성에 어떤 영향을 미치는가?
RQ5표준 벤치마크(예: 제로샷 MS-COCO FID)에서 모형 규모에 따른 CM3Leon 변형들의 상대적 성능은 어떠한가?

주요 결과

CM3Leon-7B는 7B 매개변수만으로 제로샷 MS-COCO FID의 새로운 최첨단 수치 4.88을 달성했으며, 동급 방법들에 비해 학습 계산량이 크게 적습니다.
검색 보강은 효율적인 학습과 생성 품질 향상에 있어 비검색 기반 기준선 대비 핵심 요소입니다.
SFT(지시 튜닝)는 언어 가이드 이미지 편집, 이미지 조건 생성, 세분화 등 작업에서 전례 없는 제어 가능성을 가능하게 한다.
자체 포함 대조적 디코딩 방법(CD-K)은 CFG에 비해 경쟁적이거나 보완적 이점을 제공하며, 다른 디코더와 결합했을 때 생성 향상을 가능하게 한다.
CM3Leon 모델들(350M, 760M, 7B)은 손실 감소가 안정적이고 확장성 우호적 행동을 보이며, CM3 Leon-7B가 텍스트-이미지 및 이미지-텍스트 작업에서 강력한 성능을 달성한다.
모델은 제로샷 MS-COCO FID에서 KNN-Diffusion 및 RE-IMAGEN과 같은 검색 보강 기준선보다 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.