[논문 리뷰] CogView: Mastering Text-to-Image Generation via Transformers
CogView는 VQ-VAE 이미지 토크나이저를 사용해 4B 파라미터 트랜스포머를 학습시켜 고품질 텍스트-투-이미지 생성을 수행하며 강한 FID 점수를 달성하고 downstream 파인튜닝 작업을 가능하게 한다.
Text-to-Image generation in the general domain has long been an open problem, which requires both a powerful generative model and cross-modal understanding. We propose CogView, a 4-billion-parameter Transformer with VQ-VAE tokenizer to advance this problem. We also demonstrate the finetuning strategies for various downstream tasks, e.g. style learning, super-resolution, text-image ranking and fashion design, and methods to stabilize pretraining, e.g. eliminating NaN losses. CogView achieves the state-of-the-art FID on the blurred MS COCO dataset, outperforming previous GAN-based models and a recent similar work DALL-E.
연구 동기 및 목표
- 일반 도메인에서 텍스트로 이미지를 생성할 수 있는 확장 가능한 크로스-모달 모델 구축 목표
- 텍스트 토큰과 이미지 토큰을 함께 모델링하기 위한 이산 이미지 토 tokenizer(VQ-VAE)와 대형 트랜스포머 개발
- 매우 큰 트랜스포머를 학습시키기 위한 안정화 기법(정밀도 병목 완화 및 샌드위치 LayerNorm) 제안
- 스타일 학습, 초해상도, 캡션 생성 및 자체 재정렬과 같은 다운스트림 태스크를 위한 파인튜닝 전략 시연
제안 방법
- 이미지 토크나이저(VQ-VAE)가 이미지를 이산 토큰으로 압축하고 GPT-유사 트랜스포머가 결합 토큰 시퀀스를 모델링하는 2단계 프레임워크 채택
- 48개의 레이어, 숨겨진 차원 2560, 어텐션 헤드 40, 최대 1088 토큰으로 처리하는 4B 파라미터 트랜스포머 사용
- 왼쪽에서 오른쪽으로 텍스트와 이미지 토큰에 대한 토큰 예측을 포함하는 3천만 개의 중국어 텍스트-이미지 쌍으로 학습
- NaN/오버플로우를 방지하고 값 규모를 관리하기 위한 정밀도 병목 완화(PB-relax)와 샌드위치 LayerNorm(Sandwich-LN)으로 학습 안정화
- 더 큰 모델과 더 빠른 학습을 위한 3-영역 희소 어텐션 도입
- 스타일 학습, 초해상도, 이미지 캡션/자체 재정렬(CapLoss를 통한 재정렬) 등 다운스트림 태스크에 대한 CogView 파인튜닝
실험 결과
연구 질문
- RQ1VQ-VAE 이미지 토크나이저를 가진 대규모 트랜스포머가 일반 도메인에서 최첨단 텍스트-투-이미지 생성을 달성할 수 있는가?
- RQ2이종 데이터에서 매우 큰 텍스트-투-이미지 트랜스포머의 학습을 안정화하는 데 필요한 기술은 무엇인가?
- RQ3추가 큰 클러스터 자원 없이도 사전학습된 모델을 초해상도, 캡션 생성, 스타일 전송 등의 다운스트림 태스크에 어떻게 파인튜닝할 수 있는가?
- RQ4내부 지표에 기초한 자체 재정렬이 외부 CLIP 기반 재정렬과 비교해 어떤 차이가 있는가?
- RQ5생성된 이미지가 자동 지표(FID, IS, CapLoss)와 인간 평가 양쪽에서 벤치마크 대비 어떻게 비교되는가?
주요 결과
- CogView는 흐림 처리된 MS COCO에서 강력한 자동 지표를 달성했고, 기존 GAN 기반 방법을 능가하며 핵심 설정에서 DALL-E와 근접한 경쟁력을 보인다.
- CapLoss를 통한 캡션 기반 재정렬은 CLIP이 필요 없이 이미지 선택 품질을 향상시키며, MS COCO에서 FID 측면에서 CLIP 기반 재정렬보다 우수한 성능을 보인다.
- 파인튜닝을 통해 초해상도, 이미지 캡션/재정렬, 스타일 학습 등 다운스트림 태스크를 가능하게 하며, 패션 디자인 및 다양한 예술 스타일과 같은 사례를 제시한다.
- PB-relax와 Sandwich-LN은 이질적인 텍스트-이미지 코퍼스에서 4B(및 더 큰 확장)의 트랜스포머 학습을 효과적으로 안정화하고 NaN 발생을 감소시킨다.
- DALL-E와 비교해 표준 벤치마크에서 경쟁력 있는 FID를 보이고 안정성 및 다운스트림 파인튜닝 능력에서 이점을 보인다.
- 모델은 도메인 특화 스타일 전송과 패치 단위 초해상도 파인튜닝을 통한 고해상도 가이던스를 지원한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.