[论文解读] DeepSVG: A Hierarchical Generative Network for Vector Graphics Animation
DeepSVG 引入一种分层 Transformer 基于的 VAE,非自回归预测 SVG 路径命令,实现准确的向量图重建和流畅插值,并带有一个新的大型 SVG-Icons8 数据集。
Scalable Vector Graphics (SVG) are ubiquitous in modern 2D interfaces due to their ability to scale to different resolutions. However, despite the success of deep learning-based models applied to rasterized images, the problem of vector graphics representation learning and generation remains largely unexplored. In this work, we propose a novel hierarchical generative network, called DeepSVG, for complex SVG icons generation and interpolation. Our architecture effectively disentangles high-level shapes from the low-level commands that encode the shape itself. The network directly predicts a set of shapes in a non-autoregressive fashion. We introduce the task of complex SVG icons generation by releasing a new large-scale dataset along with an open-source library for SVG manipulation. We demonstrate that our network learns to accurately reconstruct diverse vector graphics, and can serve as a powerful animation tool by performing interpolations and other latent space operations. Our code is available at https://github.com/alexandre01/deepsvg.
研究动机与目标
- 鼓励为复杂矢量图形而非栅格图像学习生成模型。
- 在分层架构中,将高层形状与低层 SVG 绘制命令解耦。
- 实现 SVG 路径的非自回归、前馈预测,以提升重建和插值。
- 引入大型 SVG-Icons8 数据集和一个开源的 SVG 操作工具包。
- 展示在插值、动画、潜在空间操作以及字体风格字形生成中的应用。
提出的方法
- 将 SVG 表示为路径集合,每条路径是具有固定长度参数列表的绘制命令序列。
- 通过命令、坐标和索引嵌入将 SVG 命令嵌入一个连续空间。
- 使用两阶段分层 Transformer 基于的 VAE:路径编码(E1)和集合编码(E2)以获得潜在向量 z,然后是两阶段解码器(D2 再 D1)来预测路径表示并将其解码为命令。
- 采用前馈非自回归的命令和属性预测,与自回归基线相对。
- 使用 VAE 目标加上一个对置换敏感的分配策略(有序或 Hungarian)将预测路径映射到真实路径。
- 构建并使用一个新的 SVG-Icons8 数据集(100,000 个图标,56 个类别)用于训练和评估;也在 SVG-Fonts 数据集上评估字形生成。
实验结果
研究问题
- RQ1分层 Transformer 架构是否能够有效学习并生成复杂的 SVG 矢量图?
- RQ2相比自回归基线,非自回归(前馈)预测是否提升矢量图的重建和插值质量?
- RQ3在编码和生成阶段如何利用 SVG 路径的置换不变量?
- RQ4路径到真实路径的分配策略(有序 vs Hungarian)对训练和插值质量的影响?
- RQ5学得的潜在空间是否能够实现有意义的动画和向量图的潜在空间操作?
主要发现
| 模型 | 第一名百分比 ↑ | 平均排名 ↓ | RE(训练/测试) ↓ | IS(训练/测试) ↓ |
|---|---|---|---|---|
| 单阶段自回归 | 9.7 | 3.26 | 0.102 / 0.170 | 0.25 / 0.36 |
| 单阶段前馈 | 19.5 | 2.40 | 0.007 / 0.014 | 0.12 / 0.17 |
| 我们的方法 – Hungarian | 25.8 | 2.29 | 0.011 / 0.017 | 0.09 / 0.14 |
| 我们的方法 – 有序 | 44.8 | 1.99 | 0.007 / 0.012 | 0.08 / 0.12 |
- 与自回归基线相比,分层的 DeepSVG 模型在插值和重建质量上具有显著优势。
- 前馈非自回归预测在重建误差和插值平滑度上显著优于自回归模型。
- A Hungarian 或有序分配用来对真实路径进行匹配,能够实现有意义的潜在空间插值,其中有序分配结果最稳定。
- 潜在空间操作实现跨图标的语义性向量编辑和动画,包括全局形状变化和路径层级操作。
- 在 SVG-Icons8 数据集上,该模型展示了强大的重建、插值和操作能力;它还在 SVG-Fonts 数据集上实现了字体风格字形生成。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。