[논문 리뷰] ELITE: Encoding Visual Concepts into Textual Embeddings for Customized Text-to-Image Generation
ELITE는 시각적 개념을 텍스트 임베딩으로 변환하기 위해 전역(global) 및 지역(local) 매핑 네트워크를 갖춘 학습 기반 인코더를 훈련시켜, 사전 학습된 확산 모델을 사용한 빠르고 정확하며 편집 가능한 맞춤 텍스트-투-이미지 생성이 가능하도록 한다.
In addition to the unprecedented ability in imaginary creation, large text-to-image models are expected to take customized concepts in image generation. Existing works generally learn such concepts in an optimization-based manner, yet bringing excessive computation or memory burden. In this paper, we instead propose a learning-based encoder, which consists of a global and a local mapping networks for fast and accurate customized text-to-image generation. In specific, the global mapping network projects the hierarchical features of a given image into multiple new words in the textual word embedding space, i.e., one primary word for well-editable concept and other auxiliary words to exclude irrelevant disturbances (e.g., background). In the meantime, a local mapping network injects the encoded patch features into cross attention layers to provide omitted details, without sacrificing the editability of primary concepts. We compare our method with existing optimization-based approaches on a variety of user-defined concepts, and demonstrate that our method enables high-fidelity inversion and more robust editability with a significantly faster encoding process. Our code is publicly available at https://github.com/csyxwei/ELITE.
연구 동기 및 목표
- 적은 수의 컨셉 이미지로부터 빠르고 정확한 맞춤 텍스트-투-이미지 생성을 가능하게 한다.
- 최적화 기반 컨셙 학습을 학습 기반 인코더로 대체한다.
- 다층 CLIP 특징을 활용해 강건하고 편집 가능한 기본 컨셉 단어를 만든다.
- 편집 가능성을 잃지 않으면서 위치 특정 정보를 주입하기 위해 지역 매핑 네트워크를 도입한다.
- 기존 방법에 비해 우수한 속도와 경쟁력 있는 충실도/편집 가능성을 시연한다.
제안 방법
- 사전 학습된 CLIP 이미지 인코더를 사용해 컨셉 이미지에서 계층적 특징을 추출한다.
- CLIP 특징으로부터 다중 단어 임베딩을 생성하는 글로벌 매핑 네트워크를 훈련해 기본 단어와 교란을 위한 보조 단어를 형성한다.
- 전경 세부 정보를 텍스트 특징 공간에 인코딩하고 교차 주의를 통해 주입하여 지역 세부 정보를 보존하도록 로컬 매핑 네트워크를 훈련한다.
- 글로벌 및 로컬 임베딩을 교차 주의 프로젝션을 통해 Stable Diffusion에 연결해 생성을 유도하며, 편집은 기본 단어만 사용한다.
- 임베딩에 대한 확산 손실과 L1 정규화를 결합하여 최적화한다 (L_global = L_LDM + lambda_global ||v||_1; L_local = L_LDM + lambda_local ||V^l||_1).
- 추론 시 기본 단어 w0를 사용하고 필요 시 지역 세부 정보를 융합해 충실도를 높여 컨셉을 생성한다.
실험 결과
연구 질문
- RQ1EncodER가 시각적 컨셉을 편집 가능한 텍스트 임베딩으로 더 빠르게 매핑하는 방법을 학습할 수 있는가?
- RQ2다층 다중 단어 글로벌 매핑이 단일 단어 임베딩보다 편집 가능성과 충실도를 향상시키는가?
- RQ3지역 매핑 네트워크가 기본 컨셉 편집 능력을 해치지 않으면서 미세한 세부 정보를 주입할 수 있는가?
- RQ4ELITE는 속도, 텍스트 정렬 및 이미지 정렬 측면에서 기존 방법과 어떻게 비교되는가?
주요 결과
| 방법 | CLIP-T (↑) | CLIP-I (↑) | DINO-I (↑) | 소요 시간 (↓) |
|---|---|---|---|---|
| Textual Inversion [15] | 0.183 | 0.663 | 0.462 | 50 min |
| DreamBooth [33] | 0.251 | 0.785 | 0.674 | 15 min |
| Custom Diffusion [18] | 0.245 | 0.801 | 0.695 | 6 min |
| Ours | 0.255 | 0.762 | 0.652 | 0.05s |
- ELITE는 컨셉 인코딩을 빠르게 달성하여 약 0.05초 내에 완료되며 최적화 기반 방법의 수분보다 빠르다.
- 다층 다중 단어 글로벌 매핑은 단일 층 또는 단일 단어 변형보다 더 편집 가능한 기본 단어와 더 나은 컨셉 충실도를 제공한다.
- 지역 매핑 네트워크의 도입은 편집 가능성에 약간의 영향을 주면서 로컬 세부 정보의 일관성을 개선한다.
- ELITE는 Textual Inversion, DreamBooth, 및 Custom Diffusion과 비교할 때 상당히 빠른 인코딩 시간을 제공하면서도 텍스트 정렬 및 이미지 정렬 측면에서 경쟁력을 보인다.
- 사용자 연구에서 편집 정렬 및 전반적 만족도 면에서 ELITE를 선호하는 경향이 강하며, competing 방법들과 비교하여 이미지 수준의 충실도도 비슷하게 유지된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.