[논문 리뷰] Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning
CM3Leon은 검색 보강 토큰 기반 디코더-전용 다중모달 모델로 텍스트와 이미지를 생성 및 보충할 수 있으며, 학습 계산량을 크게 줄이고 지시어 튜닝 후 성능을 향상시켜 텍스트-이미지 결과에서 최첨단 성과를 달성합니다.
We present CM3Leon (pronounced "Chameleon"), a retrieval-augmented, token-based, decoder-only multi-modal language model capable of generating and infilling both text and images. CM3Leon uses the CM3 multi-modal architecture but additionally shows the extreme benefits of scaling up and tuning on more diverse instruction-style data. It is the first multi-modal model trained with a recipe adapted from text-only language models, including a large-scale retrieval-augmented pre-training stage and a second multi-task supervised fine-tuning (SFT) stage. It is also a general-purpose model that can do both text-to-image and image-to-text generation, allowing us to introduce self-contained contrastive decoding methods that produce high-quality outputs. Extensive experiments demonstrate that this recipe is highly effective for multi-modal models. CM3Leon achieves state-of-the-art performance in text-to-image generation with 5x less training compute than comparable methods (zero-shot MS-COCO FID of 4.88). After SFT, CM3Leon can also demonstrate unprecedented levels of controllability in tasks ranging from language-guided image editing to image-controlled generation and segmentation.
연구 동기 및 목표
- 자동회귀형 토큰 기반 다중모달 모델이 축소된 계산량으로 이미지 생성에서 확산 기반 방법과 일치하거나 이를 능가할 수 있음을 보여준다.
- 라이선스 데이터(Shutterstock)를 활용한 검색 보강 사전 학습 파이프라인이 다중모달 작업에 미치는 이점을 보여준다.
- 텍스트, 이미지, 혼합 작업 전반에서 성능에 대한 다중 작업 감독 미세 조정(지시 튜닝)의 영향을 평가한다.
- 생성 품질 향상을 위한 자체 포함 대조적 디코딩(self-contained contrastive decoding)을 탐구한다.
- SFT 이후 제어 가능성을 갖춘 텍스트-이미지 및 이미지-텍스트 생성이 가능한 다재다능한 모델로 CM3Leon을 확립한다.
제안 방법
- CM3 다중모달 아키텍처를 디코더 전용의 검색 보강 모델(CM3Leon)로 적응한다.
- 라이선스된 Shutterstock 이미지와 텍스트에서 대규모 검색 보강 데이터를 사용하여 사전 학습하며, 밀도 CLIP 기반 검색기와 MIPS를 활용하여 검색한다.
- 모달리티 간 전환을 위해 새로운 <break> 토큰을 도입하고 다중 모달 보충 및 생성에 CM3 스타일의 목표를 사용한다.
- 혼합 이미지-텍스트 작업 전반에 걸친 지시 튜닝을 위한 다중 작업 감독 미세 조정(SFT)의 두 번째 단계를 적용한다.
- 텍스트와 이미지 생성을 개선하기 위한 자체 포함 대조적 디코딩 방법을 도입하고, CD-K의 변형 및 분류기 없는 가이던스(CFG)를 포함한다.
- 디코딩 전략(온도, Top-P, CFG, CD-K)을 평가하고 검색 제거 연구를 수행하여 제로샷 MS-COCO FID 및 기타 작업에 미치는 영향을 정량화한다.
실험 결과
연구 질문
- RQ1검색 보강과 효율적인 학습으로도 자동회귀형 토큰 기반 다중모달 모델이 텍스트-이미지 품질에서 경쟁력 있거나 더 우수해질 수 있는가?
- RQ2사전 학습 중 검색 보강이 이미지 및 텍스트 작업의 제로샷 및 소수샷 생성 성능을 향상시키는가?
- RQ3대규모 지시 튜닝(SFT)이 혼합 이미지-텍스트 작업에 대한 제어 가능성과 성능에 미치는 영향은 무엇인가?
- RQ4고급 디코딩 전략(CFG, Top-P, CD-K)이 다중 모달 출력의 생성 품질과 다양성에 어떤 영향을 미치는가?
- RQ5표준 벤치마크(예: 제로샷 MS-COCO FID)에서 모형 규모에 따른 CM3Leon 변형들의 상대적 성능은 어떠한가?
주요 결과
- CM3Leon-7B는 7B 매개변수만으로 제로샷 MS-COCO FID의 새로운 최첨단 수치 4.88을 달성했으며, 동급 방법들에 비해 학습 계산량이 크게 적습니다.
- 검색 보강은 효율적인 학습과 생성 품질 향상에 있어 비검색 기반 기준선 대비 핵심 요소입니다.
- SFT(지시 튜닝)는 언어 가이드 이미지 편집, 이미지 조건 생성, 세분화 등 작업에서 전례 없는 제어 가능성을 가능하게 한다.
- 자체 포함 대조적 디코딩 방법(CD-K)은 CFG에 비해 경쟁적이거나 보완적 이점을 제공하며, 다른 디코더와 결합했을 때 생성 향상을 가능하게 한다.
- CM3Leon 모델들(350M, 760M, 7B)은 손실 감소가 안정적이고 확장성 우호적 행동을 보이며, CM3 Leon-7B가 텍스트-이미지 및 이미지-텍스트 작업에서 강력한 성능을 달성한다.
- 모델은 제로샷 MS-COCO FID에서 KNN-Diffusion 및 RE-IMAGEN과 같은 검색 보강 기준선보다 우수하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.