QUICK REVIEW

[논문 리뷰] Simple diffusion: End-to-end diffusion for high resolution images

Emiel Hoogeboom, Jonathan Heek|arXiv (Cornell University)|2023. 01. 26.

Advanced Neuroimaging Techniques and Applications인용 수 27

한 줄 요약

이 논문은 노이즈 스케줄 조정, 저해상도에서의 아키텍처 스케일링, 타깃드롭아웃, 다운샘플링 전략을 통해 노이즈 스케줄링을 조정하고 단일 스테이지 엔드투엔드 확산 모델이 고해상도 이미지(최대 512×512)를 생성하며 샘플링 수정 없이도 최첨단 성능을 달성합니다.

ABSTRACT

Currently, applying diffusion models in pixel space of high resolution images is difficult. Instead, existing approaches focus on diffusion in lower dimensional spaces (latent diffusion), or have multiple super-resolution levels of generation referred to as cascades. The downside is that these approaches add additional complexity to the diffusion framework. This paper aims to improve denoising diffusion for high resolution images while keeping the model as simple as possible. The paper is centered around the research question: How can one train a standard denoising diffusion models on high resolution images, and still obtain performance comparable to these alternate approaches? The four main findings are: 1) the noise schedule should be adjusted for high resolution images, 2) It is sufficient to scale only a particular part of the architecture, 3) dropout should be added at specific locations in the architecture, and 4) downsampling is an effective strategy to avoid high resolution feature maps. Combining these simple yet effective techniques, we achieve state-of-the-art on image generation among diffusion models without sampling modifiers on ImageNet.

연구 동기 및 목표

latent space나 cascade 없이 고해상도 이미지 생성을 위한 확산 모델의 동기 부여.
표준 확산에 대한 간단하고 표적화된 수정으로 고해상도에서 성능을 향상시키는 제안.
고해상도 이미지(최대 512×512)의 엔드-투-엔드 학습 및 샘플링 시연.
샘플링 수정 없이 ImageNet에서 기존 확산 방식과 비교하고 최첨단 결과를 확립.

제안 방법

참조 해상도에 비해 log SNR을 이동시켜 더 높은 해상도 이미지에 대한 노이즈 스케줄을 조정.
학습 중 저주파 및 고주파 정보를 균형 있게 다루기 위해 다중 스케일 학습 손실 사용.
활용도와 성능 향상을 위해 주로 16×16 해상도에서 아키텍처 스케일링.
메모리 폭발을 방지하면서 품질을 보존하기 위해 고해상도 특징 맵의 다운샘플링(DWT 또는 패칭 방식) 도입.
고해상도 층에 악영향을 주지 않으면서 일반화에 도움이 되도록 저해상도 블록에서 선택적으로 드롭아웃 적용.
U-ViT 아키텍처(U-Net 기반에 Vision Transformer 백본)를 향상된 백본 옵션으로 제시.

실험 결과

연구 질문

RQ1 latent 공간이나 cascaded 초고해상도 없이 표준 확산 모델을 엔드-투-엔드로 고해상도 이미지에 대해 학습시킬 수 있는가?
RQ2노이즈 스케줄링, 아키텍처 스케일링, 정규화 및 다운샘플링의 간단한 수정이 고해상도에서 최첨단 결과를 산출하는가?
RQ3단일 확산 모델이 ImageNet 규모의 생성에 대해 단계적 또는 잠재적 접근법과 일치하거나 이를 능가할 수 있는가?
RQ4고해상도 확산에서 U-ViT 백본 대 일반적인 U-Net의 사용이 미치는 영향은 무엇인가?
RQ5고해상도에서 단일 스테이지 확산 모델의 텍스트 조건화 성능은 어떤가?

주요 결과

해상도에 따른 확산 노이즈 스케줄의 이동은 샘플 품질을 개선하며 특히 256×256 및 512×512에서 그렇다.
주로 16×16 해상도 블록의 스케일링과 선택적으로 U-ViT 백본 사용이 강력한 성능을 보인다.
저해상도 블록에서의 선택적 드롭아웃은 고해상도 층을 손상시키지 않으면서 모델을 정규화한다.
고해상도 특징 맵의 다운샘플링(DWT 또는 컨볼루션 기반 다운샘플링)은 훈련 속도를 크게 높이고 샘플 품질을 개선할 수 있다.
이러한 변경으로 단일 엔드투엔드 확산 모델이 샘플링 수정 없이 ImageNet에서 최첨단 FID를 달성한다.
텍스트-이미지의 경우, 조건부를 갖춘 단일 스테이지 확산 모델이 COCO/관련 벤치마크에서 기존 다수 모델에 근접하거나 이를 능가할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.