QUICK REVIEW

[论文解读] Texture Networks: Feed-forward Synthesis of Textures and Stylized Images

Dmitry Ulyanov, Vadim Lebedev|arXiv (Cornell University)|Mar 10, 2016

Generative Adversarial Networks and Image Synthesis参考文献 16被引用 605

一句话总结

纹理网络训练紧凑的前馈生成器以合成纹理并从单个样本应用风格迁移，所得到的质量与基于优化的方法相近，但速度更快、内存效率更高。

ABSTRACT

Gatys et al. recently demonstrated that deep networks can generate beautiful textures and stylized images from a single texture example. However, their methods requires a slow and memory-consuming optimization process. We propose here an alternative approach that moves the computational burden to a learning stage. Given a single example of a texture, our approach trains compact feed-forward convolutional networks to generate multiple samples of the same texture of arbitrary size and to transfer artistic style from a given image to any other image. The resulting networks are remarkably light-weight and can generate textures of quality comparable to Gatys~et~al., but hundreds of times faster. More generally, our approach highlights the power and flexibility of generative feed-forward models trained with complex and expressive loss functions.

研究动机与目标

为缓慢的基于优化的纹理合成与风格迁移方法提供一个快速替代方案的动机。
提出一个轻量级、全卷积、多尺度的生成器，将噪声映射到纹理。
演示使用来自固定预训练描述符网络（Gram 矩阵）的统计信息作为损失信号来训练生成器。
证明该方法在纹理质量上与先前方法相当，同时在速度和内存方面带来显著提升。
通过将纹理损失与内容损失结合，扩展生成器以执行风格迁移。

提出的方法

通过最小化基于固定描述符 CNN（如 VGG）的 Gram 矩阵统计的纹理损失 L_T，训练一个将噪声 z 映射到图像 x 的前馈生成器 g。
使用多尺度、全卷积的架构，结合上采样和分尺度噪声输入，以合成任意尺寸的纹理。
使用 SGD 端到端训练生成器，评估描述符以计算 G^l(x) 并使损失相对于参考纹理 x_0。
通过同时输入内容 y 和噪声 z 来扩展生成器以进行风格迁移，并以纹理损失 L_T 与内容损失 L_C 的加权和来训练。
在风格化中，将多尺度噪声与下采样后的内容连接，并增加尺度数量以改善结果。
使用 Adam 进行训练，搭配较小的图像池，并演示实时合成能力（大约每张 256x256 图像 20 ms 左右）。

实验结果

研究问题

RQ1紧凑的前馈网络是否能够学习合成与基于优化的方法相当质量的纹理？
RQ2是否可以通过将纹理统计信息与内容约束结合，将同一框架扩展到实时风格迁移？
RQ3哪些架构选择（多尺度、级联/连接、归一化）最有利于在少量参数下实现高质量纹理生成？
RQ4与用于纹理合成和风格化的迭代优化方法相比，训练得到的生成器在速度和内存使用方面如何？

主要发现

单个前馈生成器可以合成在质量和多样性上可与 Gatys 等的基于优化的方法相当的纹理，且速度快数百倍。
所提出的生成器在迭代优化上实现大约 500x 的加速，并且内存使用远低于之上（针对 256x256 样本约 170 MB 对比 1100 MB）。
一个约 65K 参数的紧凑多尺度架构可产生任意尺寸的纹理，端到端训练，使用基于 Gram 矩阵的纹理损失。
对于风格迁移，将纹理损失与内容损失结合，在多种风格下产生视觉上有说服力的风格化，和基于优化的方法相当，尽管有些情况不那么出色。
全卷积设计使风格化能够应用于超出训练分辨率的更大图像（例如将训练于 256x256 的网络应用于 1024x768 的结果）。
训练运行高效（在 K40 上的一个模型大约两小时），测试时的风格化大约每张图像 20 ms 左右。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。