[论文解读] Fast Patch-based Style Transfer of Arbitrary Style
提出一种快速、任意风格迁移的方法,使用单层 CNN 风格交换目标和一个逆网络,在对任意内容和风格图像(包括视频)的前馈风格化中实现高效。
Artistic style transfer is an image synthesis problem where the content of an image is reproduced with the style of another. Recent works show that a visually appealing style transfer can be achieved by using the hidden activations of a pretrained convolutional neural network. However, existing methods either apply (i) an optimization procedure that works for any style image but is very expensive, or (ii) an efficient feedforward network that only allows a limited number of trained styles. In this work we propose a simpler optimization objective based on local matching that combines the content structure and style textures in a single layer of the pretrained network. We show that our objective has desirable properties such as a simpler optimization landscape, intuitive parameter tuning, and consistent frame-by-frame performance on video. Furthermore, we use 80,000 natural images and 80,000 paintings to train an inverse network that approximates the result of the optimization. This results in a procedure for artistic style transfer that is efficient but also allows arbitrary content and style images.
研究动机与目标
- 推动高效的艺术风格迁移,能够处理任意内容和风格图像,避免对每种风格重新训练。
- 提出一个单层目标函数,将内容统计和风格统计结合起来,便于优化。
- 开发一种风格交换操作,用风格补丁置换内容激活,并且可以用常规卷积实现。
- 训练一个逆网络以反演激活,实现在新的风格图像上快速、前馈式风格迁移。
提出的方法
- 在单个CNN层中定义基于补丁的风格交换,使用归一化互相关将内容补丁替换为最接近匹配的风格补丁。
- 将风格交换实现为一个包含三个操作的网络:二维卷积、逐通道argmax、以及二维转置卷积。
- 通过最小化 Phi(I) 与 Phiss(C,S) 之间的闵可夫斯基范数(Frobenius 范数)以及总变差正则化来优化风格化激活。
- 训练一个逆网络,近似截断的 VGG-19 的最优逆映射,并通过包含风格交换激活的增强训练来提高。
- 在前馈流程中使用逆网络:计算 Phi(C) 和 Phi(S),通过风格交换获得 Phi^{ss}(C,S),再用逆网络生成图像。
- 证明该方法在不重新训练的情况下支持任意风格,并为视频提供逐帧一致的结果。
实验结果
研究问题
- RQ1单层 CNN 激活目标是否能够在任意内容和风格图像上产生具竞争力的风格迁移结果?
- RQ2基于补丁的风格交换是否在没有显式时间约束的情况下产生视觉上令人满意的结果并实现稳定的视频风格化?
- RQ3逆网络是否能够对具有新风格图像和不同内容尺寸的风格化进行泛化?
- RQ4与基于优化的方法以及其他前馈式风格迁移相比,该方法在速度和灵活性方面如何?
主要发现
| 方法 | 迭代次数 | 每次时间(s) | 总时间(s) |
|---|---|---|---|
| Gatys et al. [11] | 500 | 0.1004 | 50.20 |
| Li and Wand [21] | 200 | 0.6293 | 125.86 |
| Style Swap (Optim) | 100 | 0.0466 | 4.66 |
| Style Swap (InvNet) | 1 | 1.2483 | 1.25 |
- 该方法通过在单个CNN层(relu3_1)中将内容激活与风格补丁进行交换来实现视觉上令人满意的结果,并通过补丁大小提供直观的调整。
- 风格交换实现可以用标准的卷积和转置卷积层来实现,从而实现高效计算。
- 逆网络能够逼近优化最优解,并对新内容和新风格图像进行泛化,启用快速前馈式风格化流程。
- 对比时间显示,基于优化的 Gatys 等人的风格迁移比所提风格交换方法慢,在某些设置下,逆网络提供的结果比优化更快。
- 该方法允许任意风格图像而无需重新训练固定风格网络,并支持具有帧一致风格化的视频。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。