Skip to main content
QUICK REVIEW

[论文解读] A Neural Representation of Sketch Drawings

David Ha, Douglas Eck|arXiv (Cornell University)|Apr 11, 2017
Human Motion and Animation被引用 545
一句话总结

Sketch-rnn 是一个基于 RNN 的变分自编码器,学习生成和重构矢量草图,使条件和无条件草图合成以及潜在空间探索成为可能。

ABSTRACT

We present sketch-rnn, a recurrent neural network (RNN) able to construct stroke-based drawings of common objects. The model is trained on thousands of crude human-drawn images representing hundreds of classes. We outline a framework for conditional and unconditional sketch generation, and describe new robust training methods for generating coherent sketch drawings in a vector format.

研究动机与目标

  • 将矢量(笔画基)绘画的生成模型发展作为像素级图像建模的替代方案。
  • 提出一个循环神经网络框架(sketch-rnn),能够进行无条件和有条件的草图生成。
  • 开发一个鲁棒的矢量草图训练过程,并展示潜在空间编码、插值和完成。
  • 发布一个大型公开矢量草图数据集和一个开源实现,以促进后续研究。

提出的方法

  • 将草图表示为包含 5 个数据点的笔画动作序列(∆x, ∆y, p1, p2, p3)。
  • 使用双向编码器 RNN 通过变分自编码器(VAE)框架(µ, σ)生成潜在向量 z。
  • 使用自回归解码器 RNN 以 z 为条件解码,通过高斯混合模型(GMM)预测下一个点的 (∆x, ∆y),并对笔状态(p1, p2, p3)使用类别分布进行解码。
  • 使用重构损失 LR(在预测分布下数据的似然)再加上 z 与标准高斯分布之间的 KL 发散损失 LKL,并进行 KL 衰减。
  • 通过温度 τ 调控采样的随机性,以调节所生成草图的多样性。
  • 通过仅使用解码器,去除潜在条件输入,允许无条件生成。

实验结果

研究问题

  • RQ1是否可以训练一个序列到序列的 VAE,以建模并生成跨多类对象的连贯矢量草图?
  • RQ2在 z 的条件下,草图的生成和重构会受到怎样的影响?
  • RQ3KL 先验在塑造潜在空间和草图的插值质量方面起到什么作用?
  • RQ4该模型是否能够在潜在空间中执行草图完成、草图之间的插值以及跨类别类比?
  • RQ5类别数量和模型超参数如何影响重构和生成质量?

主要发现

数据集wKL = 1.00 LRwKL = 1.00 LKLwKL = 0.50 LRwKL = 0.50 LKLwKL = 0.25 LRwKL = 0.25 LKL仅解码器 LR仅解码器 LKL
cat-0.980.29-1.330.70-1.461.01-0.57-
pig-1.140.22-1.370.49-1.520.80-0.82-
cat, pig-1.020.22-1.240.49-1.500.98-0.75-
crab, face, pig, rabbit-0.910.22-1.040.40-1.471.17-0.67-
face-1.130.27-1.550.71-1.901.44-0.73-
firetruck-1.240.22-1.260.24-1.781.10-0.90-
garden-0.790.20-0.810.25-0.990.54-0.62-
owl-0.930.20-1.030.34-1.290.77-0.66-
mosquito-0.670.30-1.020.66-1.411.54-0.34-
yoga-0.800.24-1.070.55-1.511.33-0.48-
  • 该模型能够在条件和无条件模式下生成并重构跨多类对象的矢量草图。
  • 潜在空间插值在草图之间实现了连贯的形态变化,较高的 KL 权重提升流形的一致性和插值质量。
  • 有条件生成使潜在空间中的类比和身体部位操作成为可能,显示出有意义的语义方向。
  • 采样温度 τ 调节多样性,较低的 τ 产生更确定、质量更高的重构。
  • 在定性评估中,该模型展示了草图完成、四向潜在插值,以及跨类别传递(如猫与狗的特征混合)。
  • 一份基于 QuickDraw 的公开矢量草图数据集和一个开源实现随本工作同步发布。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。