[논문 리뷰] DiffSketcher: Text Guided Vector Sketch Synthesis through Latent Diffusion Models
DiffSketcher는 확장된 SDS 손실을 이용해 Bézier 곡선을 최적화하고 잠재 확산 모델의 사전 지식과 주의 기반 스트로크 초기화를 guided로 하여 텍스트에서 벡터 자유형 스케치를 고품질로 생성합니다.
Even though trained mainly on images, we discover that pretrained diffusion models show impressive power in guiding sketch synthesis. In this paper, we present DiffSketcher, an innovative algorithm that creates extit{vectorized} free-hand sketches using natural language input. DiffSketcher is developed based on a pre-trained text-to-image diffusion model. It performs the task by directly optimizing a set of Bézier curves with an extended version of the score distillation sampling (SDS) loss, which allows us to use a raster-level diffusion model as a prior for optimizing a parametric vectorized sketch generator. Furthermore, we explore attention maps embedded in the diffusion model for effective stroke initialization to speed up the generation process. The generated sketches demonstrate multiple levels of abstraction while maintaining recognizability, underlying structure, and essential visual details of the subject drawn. Our experiments show that DiffSketcher achieves greater quality than prior work. The code and demo of DiffSketcher can be found at https://ximinng.github.io/DiffSketcher-project/.
연구 동기 및 목표
- 텍스트와 자유형 벡터 스케치 생성 간의 스케치-텍스트 페어 데이터 없이 다리 놓기.
- 사전 학습된 텍스트-이미지 확산 모델을 이용해 벡터 스케치 최적화를 안내하기.
- 주의 기반 스트로크 초기화와 특수 손실 함수로 효율성과 품질 향상.
- 제어 가능한 스트로크 수와 불투명도를 통해 스케치의 다중 추상화 수준 가능하게 하기.
제안 방법
- 스케치를 각 스트로크의 불투명도와 함께 Bézier 곡선 집합으로 표현하고 differentiable rasterizer를 통해 제어점을 최적화.
- Score Distillation Sampling (SDS) 손실을 확장하여 pretrained latent diffusion model을 사전(prior)으로 사용해 곡선 최적화를 안내.
- 입력 증강과 함께 ASDS 손실을 활용해 스케치를 텍스트 프롬프트에 맞추면서 스타일을 보존.
- 확산 모델의 UNet에서 융합 교차-주의 및 자체 주의 맵을 사용해 스트로크 위치를 초기화하여 수렴 속도 향상.
- LPIPS와 CLIP를 결합한 JVSP 손실을 도입해 의미적 내용과 시각적 특징의 정렬을 달성.
실험 결과
연구 질문
- RQ1텍스트 프롬프트만으로도 다양한 추상화 수준에서 고품질의 벡터 스케치를 합성할 수 있는가?
- RQ2확산 모델 priors를 differentiable rasterizer로 이전해 벡터 스트로크를 최적화할 수 있는가?
- RQ3주의 기반 스트로크 초기화가 무작위 초기화에 비해 스케치의 충실도와 생성 효율을 향상시키는가?
- RQ4의미 정렬과 스타일리시한 스케치 현실감 사이의 최적의 밸런스를 제공하는 손실 함수(JVSP, ASDS)는 무엇인가?
- RQ5생성된 스케치가 프롬프트와 지각적/심미적 품질 측면에서 기반 방법보다 일관성이 높은가?
주요 결과
- DiffSketcher는 스트로크 수를 조정하여 추상화 수준이 다른 객체 및 장면 수준의 벡터 스케치를 텍스트 프롬프트에서 생성합니다.
- ASDS 손실은 프롬프트에 맞춘 다양한 스케치 생성을 가능하게 하며, JVSP와 결합될 때 두 손실을 단독으로 사용할 때보다 품질이 향상됩니다.
- 융합 교차- 및 자체 주의 맵을 이용한 주의 기반 초기화가 수렴 속도를 높이고 스케치 충실도를 향상시킵니다.
- 정량적 지표에서 텍스트-스케치 일관성(CLIP 코사인 유사도)과 미적 가치가 baselines보다 높게 나타납니다(0.3494 vs 0.328 및 0.3075; 미적 값 4.8206 vs 4.3682 및 4.0821).
- DiffSketcher는 일관성과 미적 가치 측면에서 CLIPasso 및 Canny 엣지 기반 방법을 능가하며, 여러 측면에서 VectorFusion과 동등하거나 우수한 성능을 보입니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.