QUICK REVIEW

[논문 리뷰] Text-Guided Synthesis of Artistic Images with Retrieval-Augmented Diffusion Models

Robin Rombach, Andreas Blattmann|arXiv (Cornell University)|2022. 07. 26.

Advanced Image and Video Retrieval Techniques인용 수 34

한 줄 요약

논문은 추론 시간에 검색 데이터베이스를 스타일별 이미지 컬렉션으로 대체함으로써 디퓨전 모델의 제로샷 텍스트-가이드 스타일링을 시연하고, 재훈련 없이 예술적 이미지 합성을 가능하게 하며, 미세한 스타일링에서 postfix 기반 프롬프트를 능가합니다. 또한 LAION- 및 WikiArt/ArtBench 기반 셋업 및 오픈 소스 코드/모델 가중치를 제공합니다.

ABSTRACT

Novel architectures have recently improved generative image synthesis leading to excellent visual quality in various tasks. Of particular note is the field of ``AI-Art'', which has seen unprecedented growth with the emergence of powerful multimodal models such as CLIP. By combining speech and image synthesis models, so-called ``prompt-engineering'' has become established, in which carefully selected and composed sentences are used to achieve a certain visual style in the synthesized image. In this note, we present an alternative approach based on retrieval-augmented diffusion models (RDMs). In RDMs, a set of nearest neighbors is retrieved from an external database during training for each training instance, and the diffusion model is conditioned on these informative samples. During inference (sampling), we replace the retrieval database with a more specialized database that contains, for example, only images of a particular visual style. This provides a novel way to prompt a general trained model after training and thereby specify a particular visual style. As shown by our experiments, this approach is superior to specifying the visual style within the text prompt. We open-source code and model weights at https://github.com/CompVis/latent-diffusion .

연구 동기 및 목표

재훈련의 필요를 줄이는 통제 가능한 후처리 스타일링 접근법을 디퓨전 모델에 동기화합니다.
외부 데이터베이스의 정보성 이미지 샘플로 생성을 조건화하기 위해 검색-확장 디퓨전 모델(RDMs)을 활용합니다.
추론 시 학습 스타일 데이터베이스를 교체하는 것이 미세한 스타일 제어를 가능하게 함을 보여줍니다.
CLIP 기반 텍스트–이미지 공간이 자연어로 된 스타일 지시를 가능하게 한다는 것을 시연합니다.

제안 방법

OpenImages(ImageNet 복제) 또는 LAION-2B-en을 학습 데이터베이스로 사용한 검색-확장 디퓨전 모델을 학습합니다.
추론 시 학습 데이터베이스를 스타일별 데이터셋(WikiArt) 또는 ArtBench 스타일 하위 집합으로 교체하여 스타일링을 달성합니다.
스타일 데이터베이스에서 조건화하기 위해 CLIP 이미지 임베딩 공간에서 k 최근접 이웃(k=19)을 검색합니다.
훈련 및 추론 시 조회된 CLIP 임베딩에 대해 교차 주의(attention)로 확산을 조건화합니다.
프롬프트 기반의 postfix 스타일과의 비교를 위해 ArtBench에서 학습된 스타일 분류기로 스타일링 품질을 평가합니다.
재현성을 위해 오픈 소스 코드와 모델 가중치를 제공합니다.

실험 결과

연구 질문

RQ1추론 시간에 외부 데이터베이스를 교체함으로써 검색-확장 디퓨전 모델이 제로샷 스타일링을 달성할 수 있는가?
RQ2CLIP 기반 검색이 추가 학습 없이도 생성된 예술에 대해 미세한 스타일별 제어를 가능하게 하는가?
RQ3검색 기반 스타일링은 정확도와 스타일 구별력 면에서 전통적인 postfix 스타일 프롬프트와 비교하여 어떠한가?
RQ4다른 스타일 데이터셋(WikiArt, ArtBench)을 사용하는 것이 합성 품질과 제어 가능성에 어떤 영향을 주는가?

주요 결과

추론 시 학습 데이터베이스를 스타일별 데이터베이스로 교체함으로써 제로샷 스타일링이 가능하다.
검색 기반 스타일링은 테스트된 예술 스타일 전반에서 미세한 스타일 제어 측면에서 postfix 기반 스타일 프롬프트보다 우수하다.
ArtBench에서 학습된 스타일 분류기가 검색된 스타일과 postfix 기반 프롬프트보다 더 높은 정렬(일치도)을 달성한다(정량적 비교 포함).
두 가지 모델 구성은 이미지넷 유사 RDM과 k=19 이웃을 호환하는 LAION-2B-en 기반 RDM을 탐색했다.
이 접근법은 재훈련 없이 후처리 스타일링을 지원하고, WikiArt, ArtBench와 같은 전문 데이터베이스를 통해 표적 스타일링을 가능하게 한다.
코드와 모델 가중치는 예술가들이 방법을 확장하고 평가하는 데 공개된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.