[论文解读] DiffSketcher: Text Guided Vector Sketch Synthesis through Latent Diffusion Models
DiffSketcher 从文本生成高质量的矢量自由手绘草图,通过使用扩展的 SDS 损失在预训练潜在扩散模型和基于注意力的笔画初始化引导下对贝塞尔曲线进行优化。
Even though trained mainly on images, we discover that pretrained diffusion models show impressive power in guiding sketch synthesis. In this paper, we present DiffSketcher, an innovative algorithm that creates extit{vectorized} free-hand sketches using natural language input. DiffSketcher is developed based on a pre-trained text-to-image diffusion model. It performs the task by directly optimizing a set of Bézier curves with an extended version of the score distillation sampling (SDS) loss, which allows us to use a raster-level diffusion model as a prior for optimizing a parametric vectorized sketch generator. Furthermore, we explore attention maps embedded in the diffusion model for effective stroke initialization to speed up the generation process. The generated sketches demonstrate multiple levels of abstraction while maintaining recognizability, underlying structure, and essential visual details of the subject drawn. Our experiments show that DiffSketcher achieves greater quality than prior work. The code and demo of DiffSketcher can be found at https://ximinng.github.io/DiffSketcher-project/.
研究动机与目标
- 在没有草图-文本配对数据的情况下,搭建文本与自由手绘矢量草图生成之间的桥梁。
- 利用预训练的文本到图像扩散模型来引导向量草图的优化。
- 通过基于注意力的笔画初始化和专门的损失函数提升效率与质量。
- 通过可控笔画数量和不透明度实现草图的多种抽象层次。
提出的方法
- 将草图表示为一组具有每笔不透明度的贝塞尔曲线,通过可微分栅格化器优化其控制点。
- 将 Score Distillation Sampling (SDS) 损失扩展为在以预训练潜在扩散模型作为先验的情况下引导曲线优化。
- 使用带输入增强的增强 SDS(ASDS)损失,在保持风格的同时使草图与文本提示对齐。
- 使用扩散模型的 UNet 的融合交叉注意力与自注意力图初始化笔画位置以加速收敛。
- 结合 LPIPS 与 CLIP 的联合视觉语义与感知(JVSP)损失,以对齐语义内容与视觉特征。
实验结果
研究问题
- RQ1仅凭文本提示能引导在不同抽象层级上合成多样且高质量的矢量草图吗?
- RQ2如何将扩散模型先验转移到可微分栅格化器以优化向量笔画?
- RQ3与随机初始化相比,基于注意力的笔画初始化是否提高草图保真度和生成效率?
- RQ4哪些损失函数(JVSP、ASDS)在语义对齐与风格草图真实感之间提供最佳权衡?
- RQ5与基线相比,生成的草图在与提示的一致性以及感知/美学质量方面表现如何?
主要发现
- DiffSketcher 通过通过调整笔画数量,以不同抽象层次从文本提示生成对象级和场景级矢量草图。
- ASDS 损失使草图生成多样并与提示对齐,且与 JVSP 结合时,比单独使用任一损失时质量更高。
- 使用融合的交叉注意力与自注意力映射的基于注意力的初始化可加速收敛并提高草图保真度。
- 定量指标显示文本-草图一致性(CLIP 余弦相似度)和美学价值高于基线(0.3494 vs 0.328 与 0.3075;美学值 4.8206 vs 4.3682 与 4.0821)。
- DiffSketcher 在一致性和美学方面优于 CLIPasso 和基于 Canny 边缘的方法,并在场景草图的若干方面达到或超过 VectorFusion。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。