[论文解读] Learning to Infer Graphics Programs from Hand-Drawn Images
本文提出了一种深度学习与程序合成框架,通过首先利用带有注意力机制的卷积神经网络从手绘草图中推断出绘图命令的符号规范,然后合成包含循环、条件判断和对称性的高层级程序,将手绘草图转换为结构化的 LATEX 图形程序。其主要贡献是一种经过学习的近似推理方法,可显著加速程序合成,实现错误纠正、基于程序结构的相似性度量,以及重复模式的外推。
We introduce a model that learns to convert simple hand drawings into graphics programs written in a subset of \LaTeX. The model combines techniques from deep learning and program synthesis. We learn a convolutional neural network that proposes plausible drawing primitives that explain an image. These drawing primitives are like a trace of the set of primitive commands issued by a graphics program. We learn a model that uses program synthesis techniques to recover a graphics program from that trace. These programs have constructs like variable bindings, iterative loops, or simple kinds of conditionals. With a graphics program in hand, we can correct errors made by the deep network, measure similarity between drawings by use of similar high-level geometric structures, and extrapolate drawings. Taken together these results are a step towards agents that induce useful, human-readable programs from perceptual input.
研究动机与目标
- 开发一种系统,从简单的二维手绘草图中推断高层级图形程序。
- 解决从感知输入(图像)到包含循环、条件判断等结构的符号可执行程序之间的鸿沟问题。
- 通过从草图中恢复结构化程序,实现高层级图像编辑与推理。
- 通过使用深度学习进行近似推理,降低程序合成的计算成本。
提出的方法
- 带有可微分空间变换器的卷积神经网络关注图像区域,并根据先前生成的命令逐个生成绘图命令。
- 网络使用多层感知机在 16×16 网格上预测基本绘图命令(如直线、矩形、圆形)的概率分布。
- 通过顺序蒙特卡洛(Sequential Monte Carlo)进行随机搜索,从输入图像中推断出绘图命令的符号规范(spec)。
- 基于约束的程序合成引擎从推断出的规范中重建高层级程序,整合循环、条件判断和对称性。
- 通过训练神经网络近似随机搜索过程,实现近似推理,从而减少对昂贵在线推理的依赖。
- 该系统结合神经感知与符号推理,生成可执行且人类可读的图形程序。
实验结果
研究问题
- RQ1深度神经网络能否有效从噪声大、手绘的图像中推断出绘图命令的符号规范?
- RQ2如何加速程序合成技术并使其在真实世界的草图到代码转换任务中具有实用性?
- RQ3所学习的程序在多大程度上能从简单草图中捕捉到对称性与重复性等高层视觉概念?
- RQ4所推断的程序能否支持连贯的图像编辑,例如对重复模式进行外推?
- RQ5在捕捉语义结构方面,程序级相似性与图像级相似性相比表现如何?
主要发现
- 该模型能够以高精度从手绘图像中推断出符号规范,从而支持下游的程序合成。
- 通过学习的神经网络实现近似推理,显著降低了程序合成的计算成本,相比标准随机搜索效率更高。
- 系统可通过利用程序级语义的一致性,纠正深度网络产生的错误。
- 程序级相似性度量能有效捕捉对称性与重复性等高层几何结构,在捕捉语义结构方面优于图像级相似性。
- 通过修改合成程序中的循环边界,系统能够外推绘图,生成与原始草图一致且更大规模的版本。
- 实验表明,该模型能泛化到新出现的草图,并生成与预期视觉结构一致的可执行 LATEX 图形程序。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。