QUICK REVIEW

[论文解读] Perceptual Losses for Real-Time Style Transfer and Super-Resolution

Justin Johnson, Alexandre Alahi|arXiv (Cornell University)|Mar 27, 2016

Advanced Image Processing Techniques参考文献 52被引用 1,031

一句话总结

本文通过使用来自预训练损失网络（VGG-16）的感知损失来训练前馈变换网络，以实现实时风格迁移和单图像超分辨率，提供与 Gatys et al. 相当的风格迁移质量，同时实现约 1000x 的加速，并在超分辨率中改进了细节再现，优于逐像素损失。

ABSTRACT

We consider image transformation problems, where an input image is transformed into an output image. Recent methods for such problems typically train feed-forward convolutional neural networks using a \emph{per-pixel} loss between the output and ground-truth images. Parallel work has shown that high-quality images can be generated by defining and optimizing \emph{perceptual} loss functions based on high-level features extracted from pretrained networks. We combine the benefits of both approaches, and propose the use of perceptual loss functions for training feed-forward networks for image transformation tasks. We show results on image style transfer, where a feed-forward network is trained to solve the optimization problem proposed by Gatys et al in real-time. Compared to the optimization-based method, our network gives similar qualitative results but is three orders of magnitude faster. We also experiment with single-image super-resolution, where replacing a per-pixel loss with a perceptual loss gives visually pleasing results.

研究动机与目标

激发图像到图像转换任务从感知的高层特征损失中受益，而不仅仅是逐像素损失。
开发能够快速逼近优化式风格迁移并提升超分辨率美学的前馈变换网络。
证明感知损失能够将来自预训练损失网络的语义理解迁移到变换网络。
展示风格迁移的实时性能以及相较于逐像素损失在超分辨率上的定性改进。

提出的方法

使用固定的损失网络 phi（在图像分类上预训练，如 VGG-16）来定义感知损失。
定义并优化变换输出与目标之间的特征重建损失（内容）和风格重建损失（纹理）。
训练一个带残差块、下采样/上采样、输出为 tanh 的前馈图像变换网络 f_W，使输出图像处于 [0,255]。
为每个风格目标训练独立的网络（用于风格迁移）以及每个上采样因子训练独立网络（用于超分辨率）。
根据需要结合像素损失或总变差损失；在训练中主要依赖感知损失。
在两个任务中进行评估：风格迁移（与 Gatys et al. 比较）和单图像超分辨率（×4 和 ×8）。

实验结果

研究问题

RQ1来自预训练分类器的感知损失能否使快速前馈网络逼近基于优化的风格迁移结果？
RQ2与逐像素损失相比，使用感知损失的训练是否提升单图像超分辨率的可视化质量和感知真实感？
RQ3更高层的感知特征在风格迁移中在多大程度上保留内容与纹理？
RQ4该方法如何在超出训练大小的更高图像分辨率上泛化？

主要发现

风格迁移网络在定性上与 Gatys et al. 相似，但速度快了约三个数量级，能够实现实时或视频速率处理（512×512 图像约 20 FPS）。
在超分辨率方面，使用感知损失训练的网络产生视觉上令人愉悦的细节和边缘，较逐像素损失方法更好地捕捉结构，尽管 PSNR/SSIM 可能略有下降，原因是纹理和高频伪影。
该方法以全卷积方式推广到更大图像，允许应用于比训练大小更大的输入。
感知损失有效地将语义知识从损失网络转移到变换网络，实现语义感知的图像变换。
该方法与现有的风格迁移目标（Gatys et al.）集成，同时在速度方面相比基于优化的生成提供了巨大改进。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。