[논문 리뷰] State of the Art on Diffusion Models for Visual Computing
이 STAR는 시각 컴퓨팅을 위한 확산 모델의 이론, 실무 및 응용을 조사하며, 2D에서 4D까지의 생성/편집을 다루고 조건화, 역(Inversion), 개인화, 데이터셋, 지표, 도전과제 및 사회적 함의를 강조합니다.
The field of visual computing is rapidly advancing due to the emergence of generative artificial intelligence (AI), which unlocks unprecedented capabilities for the generation, editing, and reconstruction of images, videos, and 3D scenes. In these domains, diffusion models are the generative AI architecture of choice. Within the last year alone, the literature on diffusion-based tools and applications has seen exponential growth and relevant papers are published across the computer graphics, computer vision, and AI communities with new works appearing daily on arXiv. This rapid growth of the field makes it difficult to keep up with all recent developments. The goal of this state-of-the-art report (STAR) is to introduce the basic mathematical concepts of diffusion models, implementation details and design choices of the popular Stable Diffusion model, as well as overview important aspects of these generative AI tools, including personalization, conditioning, inversion, among others. Moreover, we give a comprehensive overview of the rapidly growing literature on diffusion-based generation and editing, categorized by the type of generated medium, including 2D images, videos, 3D objects, locomotion, and 4D scenes. Finally, we discuss available datasets, metrics, open challenges, and social implications. This STAR provides an intuitive starting point to explore this exciting topic for researchers, artists, and practitioners alike.
연구 동기 및 목표
- 시각 컴퓨팅에 적용되는 확산 모델의 기본 이론과 수학을 소개한다.
- 2D, 비디오, 3D 및 4D 데이터에 걸친 확산 기반 생성 및 편집에 대해 구조화된 미디어 지향 개요를 제공한다.
- 확산 모델에 영향을 주는 데이터 가용성, 평가 지표 및 실제 설계 선택 사항에 대해 논의한다.
- 향후 연구와 책임 있는 사용을 안내하기 위한 열려 있는 도전 과제와 사회적 함의를 강조한다.
제안 방법
- 확산 과정과 점수 기반 노이즈 제거 프레임워크를 핵심 수학적 기초로 제시한다.
- 인코더-디코더 아키텍처의 잠재 공간에서 작동하여 계산 비용을 줄이기 위해 잠재 확산 모델(LDMs)을 사용한다.
- 교차 주의(attention), 연결(concatenation), 분류기-프리 가이던스(classifier-free guidance)를 포함한 조건화 및 가이던스 메커니즘을 설명한다.
- 출력의 조작과 개인화를 가능하게 하는 편집, 역(Inversion) 및 커스터마이제이션 기법을 설명한다.
- 2D 이미지, 비디오, 3D 객체/장면 및 4D 시공간 데이터에 걸친 확산 모델 응용을 요약하고 데이터셋 및 지표에 대한 논의를 포함한다.
![Figure 1 : Diffusion Process. (A) The forward SDE transforms images to noise. The forward SDE can be reversed [ And82 ] if we can predict the score function, enabling image synthesis. (B) The distributions of images and noise are linked with stochastic trajectories, modeled by SDEs, and deterministi](https://ar5iv.labs.arxiv.org/html/2310.07204/assets/figures/sdes.png)
실험 결과
연구 질문
- RQ1시각 컴퓨팅을 위한 확산 모델의 필수 수학적 기초와 실용적 설계 선택은 무엇인가?
- RQ2조건화 및 가이던스 메커니즘이 2D, 비디오, 3D 및 4D 콘텐츠 전반에서 제어 가능한 생성을 어떻게 가능하게 하는가?
- RQ3확산 기반 워크플로우를 위한 효과적인 편집, 역(Inversion), 커스터마이제이션 기법은 무엇인가?
- RQ4현재와 미래의 확산 모델 시스템을 형성하는 데이터셋, 지표, 열려 있는 도전 과제 및 사회적 함의는 무엇인가?
주요 결과
- 확산 모델은 시각 컴퓨팅에서 이미지, 비디오, 3D 객체 및 4D 장면의 생성 및 편집에 대한 사실상 표준이 되었다.
- 잠재 확산 모델은 압축된 잠재 공간에서 작동하면서 지각적 품질을 유지해 계산 비용을 줄인다.
- 교차 주의 및 가이던스 방법(분류기-프리 가이던스 포함)을 통한 조건화는 출력에 대해 유연한 제어와 다양성/품질 간의 트레이드오프를 제공한다.
- 편집 및 역(Inversion) 기법(DDIM inversion, 텍스트 인버전, DreamBooth 스타일 커스터마이제이션 등)은 목표 조작과 개인화를 가능하게 한다.
- STAR는 데이터셋, 평가 지표, 열린 도전 과제 및 사회적 함의를 다루며 급속한 성장과 책임 있는 개발의 필요성을 강조한다.
![Figure 2 : Stable Diffusion. This schematic shows an overview of the latent diffusion approach, including encoder $\mathcal{E}$ , decoder $\mathcal{D}$ , and conditioning using a cross-attention mechanism. Figure adapted from [ RBL ∗ 22 ] .](https://ar5iv.labs.arxiv.org/html/2310.07204/assets/x2.png)
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.