Skip to main content
QUICK REVIEW

[논문 리뷰] VQGAN-CLIP: Open Domain Image Generation and Editing with Natural Language Guidance

Katherine Crowson, Stella Biderman|arXiv (Cornell University)|2022. 04. 18.
Multimodal Machine Learning Applications인용 수 30
한 줄 요약

VQGAN-CLIP은 사전학습된 VQGAN 생성기를 CLIP와 결합하여 추가 학습 없이 텍스트 프롬프트로 오픈 도메인 이미지를 생성하고 편집하며, 프롬프트와의 시각적 품질 및 의미적 정렬을 달성합니다.

ABSTRACT

Generating and editing images from open domain text prompts is a challenging task that heretofore has required expensive and specially trained models. We demonstrate a novel methodology for both tasks which is capable of producing images of high visual quality from text prompts of significant semantic complexity without any training by using a multimodal encoder to guide image generations. We demonstrate on a variety of tasks how using CLIP [37] to guide VQGAN [11] produces higher visual quality outputs than prior, less flexible approaches like DALL-E [38], GLIDE [33] and Open-Edit [24], despite not being trained for the tasks presented. Our code is available in a public repository.

연구 동기 및 목표

  • 작업 특화 학습 없이 오픈 도메인 텍스트 기반 이미지 생성 및 편집을 촉진한다.
  • 사전 학습된 다중 모달 인코더를 활용해 이미지 생성 및 조작을 안내한다.
  • 생성 및 편집 작업 전반에서 높은 시각 품질과 의미 일치를 보여준다.
  • 효율성 이점을 보여주고 개방형 개발 영향 및 채택에 대해 논의한다.

제안 방법

  • VQGAN을 이미지 생성기로 사용하고 CLIP을 텍스트-이미지의 공동 인코더로 사용하여 텍스트 및 생성된 이미지 임베딩 간 코사인 유사도에 기반한 손실을 정의한다.
  • CLIP 기반 손실을 이용해 그래디언트 디센트를 통해 생성기 잠재 벡터(z-벡터)를 최적화한다.
  • 잘라내기, 뒤집기, 색상 변동, 노이즈 등 다중 증강을 적용하여 확장된 뷰들에서 손실 평균화를 통해 최적화를 안정화한다.
  • 일관되고 간결한 표현을 촉진하고 이미지 품질을 향상시키기 위해 잠재 벡터에 L2 항으로 규제를 적용한다.
  • 초기화를 다양화하여 생성(무작위 노이즈) 또는 편집(제공된 이미지)으로 생성 및 편집을 가능하게 한다.
  • 다중 프롬프트 합성 및 목표 편집을 안내하기 위해 프롬프트 추가 및 마스킹과 같은 추가 구성요소로 확장할 수 있다.
  • 다른 방법과의 비교에 대한 인간 평가를 통해 평가하고 설계 선택을 정당화하기 위한 제거 실험(ablation)을 수행한다.

실험 결과

연구 질문

  • RQ1오픈 도메인 텍스트 프롬프트가 새로운 모델 학습 없이도 높은 품질의 의미적으로 충실한 이미지를 생성할 수 있는가?
  • RQ2CLIP 가이드 최적화가 품질과 충실도 측면에서 감독 학습 기반 생성/편집 방법과 어떻게 비교되는가?
  • RQ3어떤 설계 선택(증강, 규제)이 출력 품질과 의미 일치에 가장 큰 영향을 미치는가?
  • RQ4이 접근법과 학습 기반 방법 간의 효율성 및 자원 사용의 트레이드오프는 무엇인가?
  • RQ5이 방법은 텍스트 프롬프트로 오픈 도메인 이미지 편집을 얼마나 잘 지원하는가?

주요 결과

  • VQGAN-CLIP으로 생성된 이미지는 높은 시각 품질과 프롬프트와의 의미적 일치를 달성한다.
  • 이 방법은 인간 정렬 평가에서 비교 가능한 오픈 도메인 접근법을 능가한다(지각적-텍스트 충실도가 더 높다).
  • 증강은 최적화를 크게 안정화하고 일관성과 품질을 개선한다.
  • L2 잠재 규제는 이전의 코드북 샘플링 방식에 비해 이미지의 일관성과 디테일을 향상시킨다.
  • 목표 이미지로 단순 초기화하는 것으로 오픈 도메인 이미지 편집이 가능해져 학습 없이 의미론적 편집이 가능하다.
  • 표준 GPU에서 확장 가능하며 일반 설정에서 이미지당 몇 분 만에 실행된다; 학습 비용은 회피된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.