QUICK REVIEW

[논문 리뷰] ELITE: Encoding Visual Concepts into Textual Embeddings for Customized Text-to-Image Generation

Yuxiang Wei, Yabo Zhang|arXiv (Cornell University)|2023. 02. 27.

Video Analysis and Summarization인용 수 7

한 줄 요약

ELITE는 시각적 개념을 텍스트 임베딩으로 변환하기 위해 전역(global) 및 지역(local) 매핑 네트워크를 갖춘 학습 기반 인코더를 훈련시켜, 사전 학습된 확산 모델을 사용한 빠르고 정확하며 편집 가능한 맞춤 텍스트-투-이미지 생성이 가능하도록 한다.

ABSTRACT

In addition to the unprecedented ability in imaginary creation, large text-to-image models are expected to take customized concepts in image generation. Existing works generally learn such concepts in an optimization-based manner, yet bringing excessive computation or memory burden. In this paper, we instead propose a learning-based encoder, which consists of a global and a local mapping networks for fast and accurate customized text-to-image generation. In specific, the global mapping network projects the hierarchical features of a given image into multiple new words in the textual word embedding space, i.e., one primary word for well-editable concept and other auxiliary words to exclude irrelevant disturbances (e.g., background). In the meantime, a local mapping network injects the encoded patch features into cross attention layers to provide omitted details, without sacrificing the editability of primary concepts. We compare our method with existing optimization-based approaches on a variety of user-defined concepts, and demonstrate that our method enables high-fidelity inversion and more robust editability with a significantly faster encoding process. Our code is publicly available at https://github.com/csyxwei/ELITE.

연구 동기 및 목표

적은 수의 컨셉 이미지로부터 빠르고 정확한 맞춤 텍스트-투-이미지 생성을 가능하게 한다.
최적화 기반 컨셙 학습을 학습 기반 인코더로 대체한다.
다층 CLIP 특징을 활용해 강건하고 편집 가능한 기본 컨셉 단어를 만든다.
편집 가능성을 잃지 않으면서 위치 특정 정보를 주입하기 위해 지역 매핑 네트워크를 도입한다.
기존 방법에 비해 우수한 속도와 경쟁력 있는 충실도/편집 가능성을 시연한다.

제안 방법

사전 학습된 CLIP 이미지 인코더를 사용해 컨셉 이미지에서 계층적 특징을 추출한다.
CLIP 특징으로부터 다중 단어 임베딩을 생성하는 글로벌 매핑 네트워크를 훈련해 기본 단어와 교란을 위한 보조 단어를 형성한다.
전경 세부 정보를 텍스트 특징 공간에 인코딩하고 교차 주의를 통해 주입하여 지역 세부 정보를 보존하도록 로컬 매핑 네트워크를 훈련한다.
글로벌 및 로컬 임베딩을 교차 주의 프로젝션을 통해 Stable Diffusion에 연결해 생성을 유도하며, 편집은 기본 단어만 사용한다.
임베딩에 대한 확산 손실과 L1 정규화를 결합하여 최적화한다 (L_global = L_LDM + lambda_global ||v||_1; L_local = L_LDM + lambda_local ||V^l||_1).
추론 시 기본 단어 w0를 사용하고 필요 시 지역 세부 정보를 융합해 충실도를 높여 컨셉을 생성한다.

실험 결과

연구 질문

RQ1EncodER가 시각적 컨셉을 편집 가능한 텍스트 임베딩으로 더 빠르게 매핑하는 방법을 학습할 수 있는가?
RQ2다층 다중 단어 글로벌 매핑이 단일 단어 임베딩보다 편집 가능성과 충실도를 향상시키는가?
RQ3지역 매핑 네트워크가 기본 컨셉 편집 능력을 해치지 않으면서 미세한 세부 정보를 주입할 수 있는가?
RQ4ELITE는 속도, 텍스트 정렬 및 이미지 정렬 측면에서 기존 방법과 어떻게 비교되는가?

주요 결과

방법	CLIP-T (↑)	CLIP-I (↑)	DINO-I (↑)	소요 시간 (↓)
Textual Inversion [15]	0.183	0.663	0.462	50 min
DreamBooth [33]	0.251	0.785	0.674	15 min
Custom Diffusion [18]	0.245	0.801	0.695	6 min
Ours	0.255	0.762	0.652	0.05s

ELITE는 컨셉 인코딩을 빠르게 달성하여 약 0.05초 내에 완료되며 최적화 기반 방법의 수분보다 빠르다.
다층 다중 단어 글로벌 매핑은 단일 층 또는 단일 단어 변형보다 더 편집 가능한 기본 단어와 더 나은 컨셉 충실도를 제공한다.
지역 매핑 네트워크의 도입은 편집 가능성에 약간의 영향을 주면서 로컬 세부 정보의 일관성을 개선한다.
ELITE는 Textual Inversion, DreamBooth, 및 Custom Diffusion과 비교할 때 상당히 빠른 인코딩 시간을 제공하면서도 텍스트 정렬 및 이미지 정렬 측면에서 경쟁력을 보인다.
사용자 연구에서 편집 정렬 및 전반적 만족도 면에서 ELITE를 선호하는 경향이 강하며, competing 방법들과 비교하여 이미지 수준의 충실도도 비슷하게 유지된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.