[논문 리뷰] Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation
LlamaGen은 vanilla autoregressive 이미지 생성(다음 토큰 예측)이 적절한 토큰화, 스케일링, 데이터로 SOTA를 달성할 수 있으며, ImageNet 256×256에서 클래스 조건 설정에서 확산 모델을 능가하고 텍스트-조건에서도 경쟁력 있는 결과를 제시한다.
We introduce LlamaGen, a new family of image generation models that apply original ``next-token prediction'' paradigm of large language models to visual generation domain. It is an affirmative answer to whether vanilla autoregressive models, e.g., Llama, without inductive biases on visual signals can achieve state-of-the-art image generation performance if scaling properly. We reexamine design spaces of image tokenizers, scalability properties of image generation models, and their training data quality. The outcome of this exploration consists of: (1) An image tokenizer with downsample ratio of 16, reconstruction quality of 0.94 rFID and codebook usage of 97% on ImageNet benchmark. (2) A series of class-conditional image generation models ranging from 111M to 3.1B parameters, achieving 2.18 FID on ImageNet 256x256 benchmarks, outperforming the popular diffusion models such as LDM, DiT. (3) A text-conditional image generation model with 775M parameters, from two-stage training on LAION-COCO and high aesthetics quality images, demonstrating competitive performance of visual quality and text alignment. (4) We verify the effectiveness of LLM serving frameworks in optimizing the inference speed of image generation models and achieve 326% - 414% speedup. We release all models and codes to facilitate open-source community of visual generation and multimodal foundation models.
연구 동기 및 목표
- 비전 전용 귀납 바이어스 없이도 vanilla autoregressive 모델이 이미지 생성에서 최첨단에 도달할 수 있는지 재평가한다.
- AR 모델에 적합한 효율적인 이미지 토크나이저를 설계하고 평가하며 재구성 품질을 측정한다.
- 수천만에서 수십억 개 파라미터에 이르는 자기회귀 이미지 모델의 규모를 확장하고 확산 기반 기준선과 비교한다.
- 시각적 충실도와 텍스트 정렬을 개선하기 위한 데이터 품질 및 훈련 전략(두 단계의 텍스트 조건 훈련)을 탐구한다.
- 실용적 배치를 가능하게 하기 위해 LLM 서빙 프레임워크를 사용한 추론 속도 향상을 시연한다.
제안 방법
- 이미지 토크나이저(VQGAN-스타일 인코더-양자화-디코더)를 사용하여 이미지를 토큰으로 이산화하고 다운샘플 비율 p를 적용한다(16과 8로 평가).
- Llama 계열의 트랜스포머 기반 자기회귀 모델을 훈련시켜 다음 이미지 토큰을 조건부로 예측한다(클래스 또는 텍스트).
- 훈련 및 추론 중 분류기-프리 가이던스(CFG)를 적용하여 이미지 품질과 텍스트 정렬을 개선한다.
- FLAN-T5 XL을 통한 이미지-텍스트 인코딩을 채택하여 텍스트 조건 생성에 사용하고 LAION-COCO 부분집합에서 내부 고미학 데이터로의 이중 단계 훈련을 수행한다.
- vLLM 서빙을 활용하여 추론을 가속화하고 기본선 대비 상당한 속도 향상을 달성한다.
- FID, IS, Precision/Recall, PSNR, SSIM 및 코드북 사용을 사용하여 ImageNet 256×256에서 평가하고; 확산 및 기타 자기회귀/토크나이제이션 기준선과 비교한다.
실험 결과
연구 질문
- RQ1정교하게 설계된 이미지 토크나이저와 훈련/스케일링 전략을 갖춘 vanilla autoregressive 이미지 생성기가 표준 벤치마크에서 확산 모델을 능가할 수 있는가?
- RQ2AR 모델에서 이미지 재구성 품질과 생성 충실도에 가장 큰 영향을 미치는 토크나이제이션, 모델 규모 조정, 데이터 전략은 무엇인가?
- RQ3classifier-free guidance가 AR 기반 이미지 생성의 품질/다양성 트레이드오프에 어떤 영향을 미치는가?
- RQ4LLM 서빙 프레임워크를 사용할 때의 속도/처리량 이득은 무엇인가?
주요 결과
- 다운샘플 비율 16인 이산 이미지 토크나이저는 ImageNet에서 재구성 품질 0.94 rFID 및 코드북 사용률 97%를 달성한다; 비율 8은 확산 모델에 사용된 연속 VAE와 경쟁적이거나 더 우수하다.
- 클래스-조건 LlamaGen 모델은 111M에서 3.1B 파라미터까지 범위이며; 가장 큰 모델은 ImageNet 256×256에서 2.18 FID에 도달하고 LDM 및 DiT 기준선을 능가한다.
- 775M 파라미터의 텍스트-조건 생성(50M LAION-COCO + 10M 고미학 이미지로 훈련)은 경쟁력 있는 시각 품질과 텍스트 정렬을 보여준다.
- vLLM 서빙 프레임워크는 111M에서 1.4B 파라미터 모델까지 모델 전반에 걸쳐 326% - 414%의 속도 향상을 제공합니다; 기본선은 이미 KV-Cache를 사용합니다.
- 모델 크기를 확장하면 XXL/3B까지 FID가 지속적으로 개선되며, ImageNet 데이터 한계로 인해 3B를 초과하는 수익은 감소한다.
- 잘 설계된 토크나이저와 데이터로 구성된 AR 모델은 256×256의 ImageNet에서 표준 벤치마크 기준으로 확산 모델과 경쟁하거나 이를 능가할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.