[논문 리뷰] Unified Multi-Modal Latent Diffusion for Joint Subject and Text Conditional Image Generation
UMM-Diffusion은 joint texts and images를 하나의 다중모달 잠재 공간으로 인코딩하여 캡션을 따르면서 입력 이미지가 제공한 주제를 보존하는 주제에 대해 미세조정 없이 이미지를 생성합니다. 또한 확산 샘플링 중 다중모달 가이던스와 순수 텍스트 가이던스를 융합합니다.
Language-guided image generation has achieved great success nowadays by using diffusion models. However, texts can be less detailed to describe highly-specific subjects such as a particular dog or a certain car, which makes pure text-to-image generation not accurate enough to satisfy user requirements. In this work, we present a novel Unified Multi-Modal Latent Diffusion (UMM-Diffusion) which takes joint texts and images containing specified subjects as input sequences and generates customized images with the subjects. To be more specific, both input texts and images are encoded into one unified multi-modal latent space, in which the input images are learned to be projected to pseudo word embedding and can be further combined with text to guide image generation. Besides, to eliminate the irrelevant parts of the input images such as background or illumination, we propose a novel sampling technique of diffusion models used by the image generator which fuses the results guided by multi-modal input and pure text input. By leveraging the large-scale pre-trained text-to-image generator and the designed image encoder, our method is able to generate high-quality images with complex semantics from both aspects of input texts and images.
연구 동기 및 목표
- 입력 텍스트와 주제 이미지로부터 Unified Conditioning을 통해 공동 주제 및 텍스트 조건 이미지 생성을 가능하게 하는 동기를 제시하고 지원합니다.
- diffusion 가이던스를 위해 텍스트와 이미지를 하나의 다중모달 잠재 공간으로 인코딩하는 conditioning 모델을 개발합니다.
- 융합 샘플링 기법을 통해 관련 없는 입력 이미지 영역(배경/조명)에 대한 과적합을 완화합니다.
- 제한된 데이터 핸들링을 위해 사전 훈련된 텍스트-이미지 생성기를 활용하여 모델을 초기화하고 학습합니다.
- 다양하고 의미적으로 정렬된 이미지 생성을 시연하며, 주제와 스타일을 사용자 정의할 수 있도록 합니다.
제안 방법
- (1) TIUE(Text-and-Image Unified Encoder)를 도입하여 (y, x_s, p)를 단일 잠재 h_u로 매핑합니다. 이를 위해 CLIP 이미지 임베딩에서 도출된 의사 단어 임베딩을 입력 텍스트 시퀀스의 참조 단어 위치에 삽입하고 참조되지 않는 토큰은 순수 텍스트 임베딩으로 교체합니다.
- (2) TIUE를 h_u(및 순수 텍스트의 경우 h_y)에 조건된 노이즈 예측 손실을 사용하여 확산 모델과 함께 학습합니다. 학습 중 CLIP 인코더는 고정합니다.
- (3) 다중모달 가이던스(h_u)와 순수 텍스트 가이던스(h_y)를 융합 노이즈 예측으로 결합하는 융합 샘플링 기법을 제안합니다: ε_f = α ε̂_u + (1−α) ε̂_y, 그런 다음 샘플링 시 분류기 없는 가이던스와 통합합니다.
- (4) Stable Diffusion v1-5로 모델을 초기화하고 unpooled CLIP Text Encoder를 TIUE로 교체합니다. 먼저 TIUE를 학습시키고 확산 모델은 동결한 뒤, 공동 미세조정으로 미세조정합니다.
- (5) 데이터 준비는 object cropping 및 단어 위치 라벨링을 통해 생성된 x, y, x_s, p로 구성된 LAION-400M 서브셋을 사용하여 주제별 미세조정 없이 학습할 수 있게 합니다.
실험 결과
연구 질문
- RQ1텍스트와 이미지가 하나의 통합된 다중모달 잠재 공간으로 인코딩되어 확산 기반 이미지 생성을 안내할 수 있는가?
- RQ2공동 텍스트-이미지 인코더가 입력 이미지가 제공하는 주제를 충실히 보존하면서 캡션을 따르는 이미지를 생성하게 할 수 있는가?
- RQ3융합 샘플링 전략이 텍스트를 준수하고 주제 디테일을 보존하는 한편 입력 이미지의 배경/무관한 세부 정보를 효과적으로 억제하는가?
- RQ4제안된 접근이 per-subject 미세조정 없이 DreamBooth와 같은 미세조정 기반 방법 및 표준 텍스트-이미지 기준선과 비교해 어떤 차이가 있는가?
- RQ5여러 이미지 가이드나 드문 주제를 사용하는 프레임워크에서의 한계는 무엇인가?
주요 결과
- 주제의 이미지에서 제공된 주제를 포함하는 캡션으로 묘사된 새로운 장면을 주제 특이적 미세조정 없이 생성할 수 있다.
- 대조군과 비교하여 온라인 미세조정 없이도 비슷한 작업에서 DreamBooth와 동등하거나 더 나은 성능을 보인다.
- 융합 샘플링(α가 약 0.5일 때)이 텍스트 충실도와 주제 디테일 보존 사이의 실용적인 트레이드오프를 제공한다.
- 여러 입력 이미지가 여러 주제를 위한 생성을 안내할 수 있으며 조명과 스케일이 일관된 조화를 이룬 결과를 생성한다.
- 다수의 이미지 가이드를 사용할 때 주제 특징이 혼합될 가능성과 희귀하거나 과도하게 만들어진 주제에 대한 왜곡이 한계로 남는다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.