QUICK REVIEW

[논문 리뷰] VQGAN-CLIP: Open Domain Image Generation and Editing with Natural Language Guidance

Katherine Crowson, Stella Biderman|arXiv (Cornell University)|2022. 04. 18.

Multimodal Machine Learning Applications인용 수 30

한 줄 요약

VQGAN-CLIP은 사전학습된 VQGAN 생성기를 CLIP와 결합하여 추가 학습 없이 텍스트 프롬프트로 오픈 도메인 이미지를 생성하고 편집하며, 프롬프트와의 시각적 품질 및 의미적 정렬을 달성합니다.

ABSTRACT

Generating and editing images from open domain text prompts is a challenging task that heretofore has required expensive and specially trained models. We demonstrate a novel methodology for both tasks which is capable of producing images of high visual quality from text prompts of significant semantic complexity without any training by using a multimodal encoder to guide image generations. We demonstrate on a variety of tasks how using CLIP [37] to guide VQGAN [11] produces higher visual quality outputs than prior, less flexible approaches like DALL-E [38], GLIDE [33] and Open-Edit [24], despite not being trained for the tasks presented. Our code is available in a public repository.

연구 동기 및 목표

작업 특화 학습 없이 오픈 도메인 텍스트 기반 이미지 생성 및 편집을 촉진한다.
사전 학습된 다중 모달 인코더를 활용해 이미지 생성 및 조작을 안내한다.
생성 및 편집 작업 전반에서 높은 시각 품질과 의미 일치를 보여준다.
효율성 이점을 보여주고 개방형 개발 영향 및 채택에 대해 논의한다.

제안 방법

VQGAN을 이미지 생성기로 사용하고 CLIP을 텍스트-이미지의 공동 인코더로 사용하여 텍스트 및 생성된 이미지 임베딩 간 코사인 유사도에 기반한 손실을 정의한다.
CLIP 기반 손실을 이용해 그래디언트 디센트를 통해 생성기 잠재 벡터(z-벡터)를 최적화한다.
잘라내기, 뒤집기, 색상 변동, 노이즈 등 다중 증강을 적용하여 확장된 뷰들에서 손실 평균화를 통해 최적화를 안정화한다.
일관되고 간결한 표현을 촉진하고 이미지 품질을 향상시키기 위해 잠재 벡터에 L2 항으로 규제를 적용한다.
초기화를 다양화하여 생성(무작위 노이즈) 또는 편집(제공된 이미지)으로 생성 및 편집을 가능하게 한다.
다중 프롬프트 합성 및 목표 편집을 안내하기 위해 프롬프트 추가 및 마스킹과 같은 추가 구성요소로 확장할 수 있다.
다른 방법과의 비교에 대한 인간 평가를 통해 평가하고 설계 선택을 정당화하기 위한 제거 실험(ablation)을 수행한다.

실험 결과

연구 질문

RQ1오픈 도메인 텍스트 프롬프트가 새로운 모델 학습 없이도 높은 품질의 의미적으로 충실한 이미지를 생성할 수 있는가?
RQ2CLIP 가이드 최적화가 품질과 충실도 측면에서 감독 학습 기반 생성/편집 방법과 어떻게 비교되는가?
RQ3어떤 설계 선택(증강, 규제)이 출력 품질과 의미 일치에 가장 큰 영향을 미치는가?
RQ4이 접근법과 학습 기반 방법 간의 효율성 및 자원 사용의 트레이드오프는 무엇인가?
RQ5이 방법은 텍스트 프롬프트로 오픈 도메인 이미지 편집을 얼마나 잘 지원하는가?

주요 결과

VQGAN-CLIP으로 생성된 이미지는 높은 시각 품질과 프롬프트와의 의미적 일치를 달성한다.
이 방법은 인간 정렬 평가에서 비교 가능한 오픈 도메인 접근법을 능가한다(지각적-텍스트 충실도가 더 높다).
증강은 최적화를 크게 안정화하고 일관성과 품질을 개선한다.
L2 잠재 규제는 이전의 코드북 샘플링 방식에 비해 이미지의 일관성과 디테일을 향상시킨다.
목표 이미지로 단순 초기화하는 것으로 오픈 도메인 이미지 편집이 가능해져 학습 없이 의미론적 편집이 가능하다.
표준 GPU에서 확장 가능하며 일반 설정에서 이미지당 몇 분 만에 실행된다; 학습 비용은 회피된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.