QUICK REVIEW

[논문 리뷰] CogView: Mastering Text-to-Image Generation via Transformers

Ming Ding, Zhuoyi Yang|arXiv (Cornell University)|2021. 05. 26.

Generative Adversarial Networks and Image Synthesis참고 문헌 42인용 수 383

한 줄 요약

CogView는 VQ-VAE 이미지 토크나이저를 사용해 4B 파라미터 트랜스포머를 학습시켜 고품질 텍스트-투-이미지 생성을 수행하며 강한 FID 점수를 달성하고 downstream 파인튜닝 작업을 가능하게 한다.

ABSTRACT

Text-to-Image generation in the general domain has long been an open problem, which requires both a powerful generative model and cross-modal understanding. We propose CogView, a 4-billion-parameter Transformer with VQ-VAE tokenizer to advance this problem. We also demonstrate the finetuning strategies for various downstream tasks, e.g. style learning, super-resolution, text-image ranking and fashion design, and methods to stabilize pretraining, e.g. eliminating NaN losses. CogView achieves the state-of-the-art FID on the blurred MS COCO dataset, outperforming previous GAN-based models and a recent similar work DALL-E.

연구 동기 및 목표

일반 도메인에서 텍스트로 이미지를 생성할 수 있는 확장 가능한 크로스-모달 모델 구축 목표
텍스트 토큰과 이미지 토큰을 함께 모델링하기 위한 이산 이미지 토 tokenizer(VQ-VAE)와 대형 트랜스포머 개발
매우 큰 트랜스포머를 학습시키기 위한 안정화 기법(정밀도 병목 완화 및 샌드위치 LayerNorm) 제안
스타일 학습, 초해상도, 캡션 생성 및 자체 재정렬과 같은 다운스트림 태스크를 위한 파인튜닝 전략 시연

제안 방법

이미지 토크나이저(VQ-VAE)가 이미지를 이산 토큰으로 압축하고 GPT-유사 트랜스포머가 결합 토큰 시퀀스를 모델링하는 2단계 프레임워크 채택
48개의 레이어, 숨겨진 차원 2560, 어텐션 헤드 40, 최대 1088 토큰으로 처리하는 4B 파라미터 트랜스포머 사용
왼쪽에서 오른쪽으로 텍스트와 이미지 토큰에 대한 토큰 예측을 포함하는 3천만 개의 중국어 텍스트-이미지 쌍으로 학습
NaN/오버플로우를 방지하고 값 규모를 관리하기 위한 정밀도 병목 완화(PB-relax)와 샌드위치 LayerNorm(Sandwich-LN)으로 학습 안정화
더 큰 모델과 더 빠른 학습을 위한 3-영역 희소 어텐션 도입
스타일 학습, 초해상도, 이미지 캡션/자체 재정렬(CapLoss를 통한 재정렬) 등 다운스트림 태스크에 대한 CogView 파인튜닝

실험 결과

연구 질문

RQ1VQ-VAE 이미지 토크나이저를 가진 대규모 트랜스포머가 일반 도메인에서 최첨단 텍스트-투-이미지 생성을 달성할 수 있는가?
RQ2이종 데이터에서 매우 큰 텍스트-투-이미지 트랜스포머의 학습을 안정화하는 데 필요한 기술은 무엇인가?
RQ3추가 큰 클러스터 자원 없이도 사전학습된 모델을 초해상도, 캡션 생성, 스타일 전송 등의 다운스트림 태스크에 어떻게 파인튜닝할 수 있는가?
RQ4내부 지표에 기초한 자체 재정렬이 외부 CLIP 기반 재정렬과 비교해 어떤 차이가 있는가?
RQ5생성된 이미지가 자동 지표(FID, IS, CapLoss)와 인간 평가 양쪽에서 벤치마크 대비 어떻게 비교되는가?

주요 결과

CogView는 흐림 처리된 MS COCO에서 강력한 자동 지표를 달성했고, 기존 GAN 기반 방법을 능가하며 핵심 설정에서 DALL-E와 근접한 경쟁력을 보인다.
CapLoss를 통한 캡션 기반 재정렬은 CLIP이 필요 없이 이미지 선택 품질을 향상시키며, MS COCO에서 FID 측면에서 CLIP 기반 재정렬보다 우수한 성능을 보인다.
파인튜닝을 통해 초해상도, 이미지 캡션/재정렬, 스타일 학습 등 다운스트림 태스크를 가능하게 하며, 패션 디자인 및 다양한 예술 스타일과 같은 사례를 제시한다.
PB-relax와 Sandwich-LN은 이질적인 텍스트-이미지 코퍼스에서 4B(및 더 큰 확장)의 트랜스포머 학습을 효과적으로 안정화하고 NaN 발생을 감소시킨다.
DALL-E와 비교해 표준 벤치마크에서 경쟁력 있는 FID를 보이고 안정성 및 다운스트림 파인튜닝 능력에서 이점을 보인다.
모델은 도메인 특화 스타일 전송과 패치 단위 초해상도 파인튜닝을 통한 고해상도 가이던스를 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.