Skip to main content
QUICK REVIEW

[논문 리뷰] Improving Diffusion-Based Image Synthesis with Context Prediction

L. Yang, Jingwei Liu|arXiv (Cornell University)|2024. 01. 04.
Generative Adversarial Networks and Image Synthesis인용 수 8
한 줄 요약

ConPreDiff를 도입하는 확산 모델용 컨텍스트 예측 프레임워크로, 각 픽셀/토큰이 컨텍스트 디코더를 통해 이웃 컨텍스트를 예측하도록 강화하여, 추론 비용을 추가하지 않으면서 무작위 조건, 텍스트-투-이미지 및 인페인팅 작업 전반에서 이미지 생성을 개선합니다.

ABSTRACT

Diffusion models are a new class of generative models, and have dramatically promoted image generation with unprecedented quality and diversity. Existing diffusion models mainly try to reconstruct input image from a corrupted one with a pixel-wise or feature-wise constraint along spatial axes. However, such point-based reconstruction may fail to make each predicted pixel/feature fully preserve its neighborhood context, impairing diffusion-based image synthesis. As a powerful source of automatic supervisory signal, context has been well studied for learning representations. Inspired by this, we for the first time propose ConPreDiff to improve diffusion-based image synthesis with context prediction. We explicitly reinforce each point to predict its neighborhood context (i.e., multi-stride features/tokens/pixels) with a context decoder at the end of diffusion denoising blocks in training stage, and remove the decoder for inference. In this way, each point can better reconstruct itself by preserving its semantic connections with neighborhood context. This new paradigm of ConPreDiff can generalize to arbitrary discrete and continuous diffusion backbones without introducing extra parameters in sampling procedure. Extensive experiments are conducted on unconditional image generation, text-to-image generation and image inpainting tasks. Our ConPreDiff consistently outperforms previous methods and achieves a new SOTA text-to-image generation results on MS-COCO, with a zero-shot FID score of 6.21.

연구 동기 및 목표

  • 확산 모델에서 포인트 단위 재구성의 한계가 로컬 이웃 컨텍스트를 간과할 수 있음을 동기 부여하고 해결합니다.
  • 학습 중 이웃 컨텍스트를 추론하기 위해 각 점을 강화하는 컨텍스트 예측 메커니즘을 제안합니다.
  • 배포 기반 예측과 Wasserstein 거리로 대규모 컨텍스트 디코딩을 가능하게 하는 효율적인 이웃 컨텍스트 디코딩 전략을 개발합니다.
  • 추론 비용을 늘리지 않고 이산 및 연속 확산 백본 모두에 ConPreDiff를 일반화합니다.
  • 무작위 생성, 텍스트-투-이미지 생성, 및 이미지 인페인팅에서 최첨단 성능을 보입니다.

제안 방법

  • 각 포인트에 대해 다중 보폭 이웃 컨텍스트를 예측하는 컨텍스트 예측 헤드를 디노이즈 네트워크 끝 근처에 추가합니다.
  • 이웃 정보를 다중 보폭 이웃의 분포로 표현하고 이를 신경망을 통해 디코드합니다.
  • 디코드된 이웃 분포를 실제 컨텍스트와 정렬시키기 위해 Wasserstein 거리 기반 손실을 사용하여 대규모 컨텍스트 디코딩을 가능하게 합니다.
  • 이웃 예측을 파라미터 증가를 피하기 위해 분포 예측으로 재정의합니다.
  • ConPreDiff 손실이 특정 집계 하에서 표준 DDPM 목적함수를 상한하는 이론적 연결을 제시합니다.
  • 훈련 중 컨텍스트 손실 항을 추가하여 추론을 바꾸지 않고 이산 및 연속 확산 백본 모두에 ConPreDiff를 일반화합니다.

실험 결과

연구 질문

  • RQ1명시적 이웃 컨텍스트 예측이 확산 기반 이미지 합성의 충실도와 다양성을 개선할 수 있는가?
  • RQ2이웃 컨텍스트를 전체 픽셀/특징 디코딩 대신 분포로 예측하는 것이 큰 컨텍스트로 확장하는 데 효율적으로 작동하는가?
  • RQ3ConPreDiff가 이산 및 연속 확산 백본 모두에 대해 다양한 비전 작업에서 호환되며 유익한가?
  • RQ4생성 품질과 학습 효율성에 대한 서로 다른 이웃 보폭의 영향은 무엇인가?

주요 결과

  • ConPreDiff는 텍스트-투-이미지 생성 및 이미지 인페인팅 작업에서 이전의 확산 및 비확산 모델보다 우수한 성능을 보인다.
  • 이산 및 연속 ConPreDiff는 MS-COCO 텍스트-투-이미지 생성에서 새로운 최첨단 FID 점수를 달성한다.
  • 컨텍스트 예측은 기존 확산 백본에 적용될 때 생성 품질을 일관되게 향상시킨다.
  • Wasserstein 손실이 포함된 분포 기반 이웃 디코딩은 큰 컨텍스트 모델링을 합리적인 계산 비용으로 가능하게 한다.
  • 컨텍스트 보강은 무작위 생성, 텍스트-투-이미지 생성, 인페인팅 전반에 걸쳐 개선을 제공하며, 더 나은 로컬 컨텍스트 보존에서 기인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.